Zubnet AIAprenderWiki › Information Extraction
Using AI

Information Extraction

IE, Structured Extraction
Extrair automaticamente informação estruturada de texto não estruturado. Dado um artigo de notícias, extrair: quem fez o quê, quando, onde e por quê. Dado um contrato, extrair: partes, datas, obrigações e valores. IE combina NER (encontrar entidades), extração de relações (encontrar conexões entre entidades) e extração de eventos (encontrar o que aconteceu) num pipeline unificado.

Por que importa

A maior parte da informação do mundo está presa em texto não estruturado — emails, relatórios, artigos, documentos legais, registros médicos. Extração de informação transforma esse texto em dados estruturados que podem ser pesquisados, analisados e sobre os quais se pode agir. É a tecnologia que te deixa fazer uma pergunta tipo base de dados sobre uma pilha de documentos.

Deep Dive

The IE pipeline traditionally has three stages: entity extraction (find all mentions of people, organizations, dates, amounts), relation extraction (determine relationships: "Company X acquired Company Y for $Z"), and coreference resolution (recognize that "the company," "Apple," and "it" all refer to the same entity). Each stage builds on the previous one to produce structured, linked information.

LLMs Changed Everything

LLMs collapsed the IE pipeline into a single prompt: "Extract all companies, people, amounts, and dates from this text. For each, identify their relationships. Return as JSON." This works remarkably well for common extraction tasks and eliminates the need for separate models for each subtask. The trade-off: LLM extraction is slower and more expensive than dedicated models, and less predictable in output format (structured output modes help).

Document Understanding

Modern IE goes beyond text: document understanding models (LayoutLM, Donut) extract information from visually-rich documents (invoices, receipts, forms) by understanding both text content and spatial layout. "Total: $42.50" in the bottom-right of an invoice means something different from the same text in a body paragraph. These models combine OCR, layout analysis, and NLP to extract structured data from real-world documents.

Conceitos relacionados

← Todos os termos
ESC