Extracción de Información: Definición y significado — Wiki de IA

Extraer automáticamente información estructurada de texto no estructurado. Dado un artículo de noticias, extraer: quién hizo qué, cuándo, dónde y por qué. Dado un contrato, extraer: partes, fechas, obligaciones y montos. IE combina NER (encontrar entidades), extracción de relaciones (encontrar conexiones entre entidades) y extracción de eventos (encontrar qué sucedió) en un pipeline unificado.

Por qué importa

La mayor parte de la información del mundo está atrapada en texto no estructurado — correos electrónicos, informes, artículos, documentos legales, registros médicos. La extracción de información convierte este texto en datos estructurados que pueden ser buscados, analizados y utilizados. Es la tecnología que te permite hacer una pregunta tipo base de datos sobre una pila de documentos.

En profundidad

El pipeline de IE tradicionalmente tiene tres etapas: extracción de entidades (encontrar todas las menciones de personas, organizaciones, fechas, montos), extracción de relaciones (determinar relaciones: "La Empresa X adquirió la Empresa Y por $Z"), y resolución de correferencia (reconocer que "la empresa", "Apple" e "it" se refieren a la misma entidad). Cada etapa se construye sobre la anterior para producir información estructurada y vinculada.

Los LLMs lo cambiaron todo

Los LLMs colapsaron el pipeline de IE en un solo prompt: "Extrae todas las empresas, personas, montos y fechas de este texto. Para cada uno, identifica sus relaciones. Devuelve como JSON." Esto funciona notablemente bien para tareas comunes de extracción y elimina la necesidad de modelos separados para cada subtarea. La desventaja: la extracción con LLM es más lenta y costosa que los modelos dedicados, y menos predecible en formato de salida (los modos de salida estructurada ayudan).

Comprensión de documentos

La IE moderna va más allá del texto: los modelos de comprensión de documentos (LayoutLM, Donut) extraen información de documentos visualmente ricos (facturas, recibos, formularios) entendiendo tanto el contenido del texto como la disposición espacial. "Total: $42.50" en la esquina inferior derecha de una factura significa algo diferente que el mismo texto en un párrafo del cuerpo. Estos modelos combinan OCR, análisis de diseño y NLP para extraer datos estructurados de documentos del mundo real.