Reconnaissance d'entités nommées : Définition et signification — Wiki IA

Identifier et catégoriser les entités nommées dans un texte — personnes, organisations, lieux, dates, montants monétaires et autres noms propres. Dans « Apple a annoncé un investissement de 3 G$ à Munich mardi », le NER identifie Apple (Organisation), 3 G$ (Argent), Munich (Lieu) et mardi (Date). C'est une tâche NLP fondamentale utilisée dans l'extraction d'information, la recherche et la construction de graphes de connaissances.

Pourquoi c'est important

Le NER est la colonne vertébrale de l'extraction d'information structurée à partir de texte non structuré. Chaque moteur de recherche, agrégateur de nouvelles et système de renseignement utilise le NER pour comprendre de quoi parle un document. C'est aussi la première étape dans la construction de graphes de connaissances à partir de texte — tu ne peux pas construire de relations entre des entités que tu n'as pas identifiées.

En profondeur

Le NER est typiquement formulé comme une tâche d'étiquetage de séquences : chaque token reçoit une étiquette comme B-PER (début de nom de personne), I-PER (intérieur de nom de personne), O (pas une entité). Le schéma de balisage BIO gère les entités multi-mots : « New » reçoit B-LOC, « York » reçoit I-LOC. Les modèles BERT fine-tunés sont le standard pour le NER haute précision, bien que le NER intégré de spaCy soit populaire pour une extraction rapide et suffisamment bonne.

NER spécifique au domaine

Les modèles NER généraux gèrent les types d'entités courants (personne, organisation, lieu, date). Les applications spécifiques à un domaine ont besoin de types personnalisés : le NER médical extrait les médicaments, symptômes et dosages. Le NER juridique extrait les numéros de dossier, les lois et les parties. Le NER financier extrait les symboles boursiers, les métriques financières et les références réglementaires. Tout ça nécessite des données d'entraînement spécifiques au domaine, qui sont coûteuses à annoter mais améliorent drastiquement la qualité d'extraction dans les contextes spécialisés.

NER avec les LLM

Les LLM peuvent faire du NER via le prompting : « Extrais tous les noms de personnes et organisations de ce texte et retourne en JSON. » C'est plus lent et plus cher que les modèles NER dédiés mais gère les types d'entités nouveaux sans données d'entraînement et fonctionne dans toutes les langues dès le départ. Pour les systèmes de production traitant des millions de documents, les modèles dédiés gagnent sur le coût. Pour l'extraction ponctuelle ou les types d'entités peu courants, les LLM gagnent sur la flexibilité.