Le NER est typiquement formulé comme une tâche d'étiquetage de séquences : chaque token reçoit une étiquette comme B-PER (début de nom de personne), I-PER (intérieur de nom de personne), O (pas une entité). Le schéma de balisage BIO gère les entités multi-mots : « New » reçoit B-LOC, « York » reçoit I-LOC. Les modèles BERT fine-tunés sont le standard pour le NER haute précision, bien que le NER intégré de spaCy soit populaire pour une extraction rapide et suffisamment bonne.
Les modèles NER généraux gèrent les types d'entités courants (personne, organisation, lieu, date). Les applications spécifiques à un domaine ont besoin de types personnalisés : le NER médical extrait les médicaments, symptômes et dosages. Le NER juridique extrait les numéros de dossier, les lois et les parties. Le NER financier extrait les symboles boursiers, les métriques financières et les références réglementaires. Tout ça nécessite des données d'entraînement spécifiques au domaine, qui sont coûteuses à annoter mais améliorent drastiquement la qualité d'extraction dans les contextes spécialisés.
Les LLM peuvent faire du NER via le prompting : « Extrais tous les noms de personnes et organisations de ce texte et retourne en JSON. » C'est plus lent et plus cher que les modèles NER dédiés mais gère les types d'entités nouveaux sans données d'entraînement et fonctionne dans toutes les langues dès le départ. Pour les systèmes de production traitant des millions de documents, les modèles dédiés gagnent sur le coût. Pour l'extraction ponctuelle ou les types d'entités peu courants, les LLM gagnent sur la flexibilité.