Extração de Informação: Definição e significado — Wiki de IA

Extrair automaticamente informações estruturadas de texto não estruturado. Dado um artigo de notícias, extrair: quem fez o quê, quando, onde e por quê. Dado um contrato, extrair: partes, datas, obrigações e valores. IE combina NER (encontrar entidades), extração de relações (encontrar conexões entre entidades) e extração de eventos (encontrar o que aconteceu) em um pipeline unificado.

Por que isso importa

A maior parte da informação do mundo está presa em texto não estruturado — e-mails, relatórios, artigos, documentos jurídicos, prontuários médicos. A extração de informação transforma esse texto em dados estruturados que podem ser pesquisados, analisados e utilizados. É a tecnologia que permite fazer uma pergunta no estilo de banco de dados sobre uma pilha de documentos.

Em profundidade

O pipeline de IE tradicionalmente tem três estágios: extração de entidades (encontrar todas as menções a pessoas, organizações, datas, valores), extração de relações (determinar relacionamentos: "Empresa X adquiriu Empresa Y por $Z") e resolução de correferência (reconhecer que "a empresa", "a Apple" e "ela" se referem à mesma entidade). Cada estágio se baseia no anterior para produzir informação estruturada e conectada.

LLMs Mudaram Tudo

LLMs colapsaram o pipeline de IE em um único prompt: "Extraia todas as empresas, pessoas, valores e datas deste texto. Para cada um, identifique seus relacionamentos. Retorne como JSON." Isso funciona notavelmente bem para tarefas comuns de extração e elimina a necessidade de modelos separados para cada subtarefa. O trade-off: extração por LLM é mais lenta e cara do que modelos dedicados, e menos previsível no formato de saída (modos de saída estruturada ajudam).

Compreensão de Documentos

A IE moderna vai além do texto: modelos de compreensão de documentos (LayoutLM, Donut) extraem informações de documentos visualmente ricos (faturas, recibos, formulários) entendendo tanto o conteúdo textual quanto o layout espacial. "Total: R$42,50" no canto inferior direito de uma fatura significa algo diferente do mesmo texto em um parágrafo do corpo. Esses modelos combinam OCR, análise de layout e NLP para extrair dados estruturados de documentos do mundo real.