Zubnet AIApprendreWiki › Named Entity Recognition
Using AI

Named Entity Recognition

NER, Entity Extraction
Identifier et catégoriser les entités nommées dans du texte — personnes, organisations, lieux, dates, montants d'argent et autres noms propres. Dans « Apple a annoncé un investissement de 3 G$ à Munich mardi », le NER identifie Apple (Organisation), 3 G$ (Argent), Munich (Lieu) et mardi (Date). C'est une tâche NLP fondamentale utilisée en extraction d'information, recherche et construction de graphes de connaissances.

Pourquoi c'est important

Le NER est la colonne vertébrale de l'extraction d'information structurée à partir de texte non structuré. Chaque moteur de recherche, agrégateur de nouvelles et système de renseignement utilise le NER pour comprendre de quoi parle un document. C'est aussi la première étape dans la construction de graphes de connaissances à partir de texte — tu peux pas construire des relations entre des entités que t'as pas identifiées.

Deep Dive

NER is typically framed as a sequence labeling task: each token gets a label like B-PER (beginning of person name), I-PER (inside person name), O (not an entity). The BIO tagging scheme handles multi-word entities: "New" gets B-LOC, "York" gets I-LOC. Fine-tuned BERT models are the standard for high-accuracy NER, though spaCy's built-in NER is popular for quick, good-enough extraction.

Domain-Specific NER

General NER models handle common entity types (person, org, location, date). Domain-specific applications need custom types: medical NER extracts drugs, symptoms, and dosages. Legal NER extracts case numbers, statutes, and parties. Financial NER extracts ticker symbols, financial metrics, and regulatory references. These require domain-specific training data, which is expensive to annotate but dramatically improves extraction quality in specialized contexts.

NER with LLMs

LLMs can perform NER through prompting: "Extract all person names and organizations from this text and return as JSON." This is slower and more expensive than dedicated NER models but handles novel entity types without training data and works across languages out of the box. For production systems processing millions of documents, dedicated models win on cost. For ad-hoc extraction or uncommon entity types, LLMs win on flexibility.

Concepts liés

← Tous les termes
ESC