El pipeline de IE tradicionalmente tiene tres etapas: extracción de entidades (encontrar todas las menciones de personas, organizaciones, fechas, montos), extracción de relaciones (determinar relaciones: "La Empresa X adquirió la Empresa Y por $Z"), y resolución de correferencia (reconocer que "la empresa", "Apple" e "it" se refieren a la misma entidad). Cada etapa se construye sobre la anterior para producir información estructurada y vinculada.
Los LLMs colapsaron el pipeline de IE en un solo prompt: "Extrae todas las empresas, personas, montos y fechas de este texto. Para cada uno, identifica sus relaciones. Devuelve como JSON." Esto funciona notablemente bien para tareas comunes de extracción y elimina la necesidad de modelos separados para cada subtarea. La desventaja: la extracción con LLM es más lenta y costosa que los modelos dedicados, y menos predecible en formato de salida (los modos de salida estructurada ayudan).
La IE moderna va más allá del texto: los modelos de comprensión de documentos (LayoutLM, Donut) extraen información de documentos visualmente ricos (facturas, recibos, formularios) entendiendo tanto el contenido del texto como la disposición espacial. "Total: $42.50" en la esquina inferior derecha de una factura significa algo diferente que el mismo texto en un párrafo del cuerpo. Estos modelos combinan OCR, análisis de diseño y NLP para extraer datos estructurados de documentos del mundo real.