O pipeline de IE tradicionalmente tem três estágios: extração de entidades (encontrar todas as menções a pessoas, organizações, datas, valores), extração de relações (determinar relacionamentos: "Empresa X adquiriu Empresa Y por $Z") e resolução de correferência (reconhecer que "a empresa", "a Apple" e "ela" se referem à mesma entidade). Cada estágio se baseia no anterior para produzir informação estruturada e conectada.
LLMs colapsaram o pipeline de IE em um único prompt: "Extraia todas as empresas, pessoas, valores e datas deste texto. Para cada um, identifique seus relacionamentos. Retorne como JSON." Isso funciona notavelmente bem para tarefas comuns de extração e elimina a necessidade de modelos separados para cada subtarefa. O trade-off: extração por LLM é mais lenta e cara do que modelos dedicados, e menos previsível no formato de saída (modos de saída estruturada ajudam).
A IE moderna vai além do texto: modelos de compreensão de documentos (LayoutLM, Donut) extraem informações de documentos visualmente ricos (faturas, recibos, formulários) entendendo tanto o conteúdo textual quanto o layout espacial. "Total: R$42,50" no canto inferior direito de uma fatura significa algo diferente do mesmo texto em um parágrafo do corpo. Esses modelos combinam OCR, análise de layout e NLP para extrair dados estruturados de documentos do mundo real.