Named Entity Recognition: Definição e significado — Wiki de IA

Identificar e categorizar entidades nomeadas em texto — pessoas, organizações, locais, datas, valores monetários e outros nomes próprios. Em "Apple anunciou um investimento de US$ 3 bilhões em Munique na terça-feira", NER identifica Apple (Organização), US$ 3 bilhões (Dinheiro), Munique (Local) e terça-feira (Data). É uma tarefa fundamental de NLP usada em extração de informações, busca e construção de grafos de conhecimento.

Por que isso importa

NER é a espinha dorsal da extração de informações estruturadas a partir de texto não estruturado. Todo mecanismo de busca, agregador de notícias e sistema de inteligência usa NER para entender sobre o que um documento trata. Também é o primeiro passo na construção de grafos de conhecimento a partir de texto — você não consegue construir relações entre entidades que não identificou.

Em profundidade

NER é tipicamente formulado como uma tarefa de rotulação de sequência: cada token recebe um rótulo como B-PER (início de nome de pessoa), I-PER (dentro de nome de pessoa), O (não é uma entidade). O esquema de marcação BIO lida com entidades de múltiplas palavras: "Nova" recebe B-LOC, "York" recebe I-LOC. Modelos BERT ajustados são o padrão para NER de alta precisão, embora o NER integrado do spaCy seja popular para extração rápida e suficientemente boa.

NER Específico de Domínio

Modelos gerais de NER lidam com tipos comuns de entidades (pessoa, organização, local, data). Aplicações específicas de domínio precisam de tipos personalizados: NER médico extrai medicamentos, sintomas e dosagens. NER jurídico extrai números de processos, estatutos e partes. NER financeiro extrai símbolos de ações, métricas financeiras e referências regulatórias. Estes exigem dados de treinamento específicos do domínio, que são caros para anotar, mas melhoram dramaticamente a qualidade da extração em contextos especializados.

NER com LLMs

LLMs podem realizar NER via prompting: "Extraia todos os nomes de pessoas e organizações deste texto e retorne como JSON." Isso é mais lento e mais caro do que modelos de NER dedicados, mas lida com tipos de entidades novos sem dados de treinamento e funciona em vários idiomas de forma nativa. Para sistemas de produção processando milhões de documentos, modelos dedicados vencem em custo. Para extração ad-hoc ou tipos de entidades incomuns, LLMs vencem em flexibilidade.