NER se formula típicamente como una tarea de etiquetado de secuencias: cada token recibe una etiqueta como B-PER (inicio de nombre de persona), I-PER (dentro de nombre de persona), O (no es una entidad). El esquema de etiquetado BIO maneja entidades de varias palabras: "Nueva" recibe B-LOC, "York" recibe I-LOC. Los modelos BERT ajustados son el estándar para NER de alta precisión, aunque el NER incorporado de spaCy es popular para extracción rápida y suficientemente buena.
Los modelos NER generales manejan tipos comunes de entidades (persona, organización, ubicación, fecha). Las aplicaciones específicas de dominio necesitan tipos personalizados: NER médico extrae medicamentos, síntomas y dosis. NER legal extrae números de casos, estatutos y partes. NER financiero extrae símbolos bursátiles, métricas financieras y referencias regulatorias. Estos requieren datos de entrenamiento específicos de dominio, que son costosos de anotar pero mejoran dramáticamente la calidad de extracción en contextos especializados.
Los LLMs pueden realizar NER mediante prompting: "Extrae todos los nombres de personas y organizaciones de este texto y devuélvelos como JSON." Esto es más lento y costoso que los modelos NER dedicados pero maneja tipos de entidades novedosos sin datos de entrenamiento y funciona entre idiomas de forma nativa. Para sistemas de producción que procesan millones de documentos, los modelos dedicados ganan en costo. Para extracción ad-hoc o tipos de entidades poco comunes, los LLMs ganan en flexibilidad.