NER को आमतौर पर एक sequence labeling कार्य के रूप में तैयार किया जाता है: प्रत्येक token को B-PER (व्यक्ति नाम की शुरुआत), I-PER (व्यक्ति नाम के अंदर), O (entity नहीं) जैसा लेबल मिलता है। BIO tagging स्कीम बहु-शब्द entities को संभालती है: "New" को B-LOC मिलता है, "York" को I-LOC मिलता है। Fine-tuned BERT मॉडल उच्च-सटीकता NER के लिए मानक हैं, हालांकि spaCy का built-in NER त्वरित, पर्याप्त-अच्छे निष्कर्षण के लिए लोकप्रिय है।
सामान्य NER मॉडल सामान्य entity प्रकारों (व्यक्ति, संगठन, स्थान, तिथि) को संभालते हैं। Domain-विशिष्ट अनुप्रयोगों को कस्टम प्रकारों की आवश्यकता होती है: चिकित्सा NER दवाओं, लक्षणों और खुराक निकालता है। कानूनी NER केस नंबर, विधियों और पक्षों को निकालता है। वित्तीय NER ticker symbols, वित्तीय metrics और नियामक संदर्भों को निकालता है। इनके लिए domain-विशिष्ट प्रशिक्षण डेटा की आवश्यकता होती है, जो annotate करना महंगा है लेकिन विशेष संदर्भों में निष्कर्षण गुणवत्ता में नाटकीय सुधार करता है।
LLMs prompting के माध्यम से NER कर सकते हैं: "इस टेक्स्ट से सभी व्यक्ति नाम और संगठन निकालें और JSON के रूप में लौटाएँ।" यह समर्पित NER मॉडलों की तुलना में धीमा और अधिक महंगा है लेकिन प्रशिक्षण डेटा के बिना नए entity प्रकारों को संभालता है और बिना किसी अतिरिक्त सेटअप के सभी भाषाओं में काम करता है। लाखों दस्तावेज़ों को प्रोसेस करने वाले production सिस्टम के लिए, समर्पित मॉडल लागत पर जीतते हैं। Ad-hoc निष्कर्षण या असामान्य entity प्रकारों के लिए, LLMs लचीलेपन पर जीतते हैं।