Named Entity Recognition: परिभाषा और अर्थ — AI विकी

टेक्स्ट में नामित entities की पहचान और वर्गीकरण करना — व्यक्ति, संगठन, स्थान, तिथियाँ, मौद्रिक राशियाँ और अन्य उचित संज्ञाएँ। "Apple ने मंगलवार को म्यूनिख में $3B निवेश की घोषणा की" में, NER Apple (संगठन), $3B (धन), म्यूनिख (स्थान) और मंगलवार (तिथि) की पहचान करता है। यह सूचना निष्कर्षण, खोज और knowledge graph निर्माण में उपयोग किया जाने वाला एक मूलभूत NLP कार्य है।

यह क्यों मायने रखता है

NER असंरचित टेक्स्ट से संरचित सूचना निष्कर्षण की रीढ़ है। हर search engine, समाचार aggregator और intelligence सिस्टम NER का उपयोग यह समझने के लिए करता है कि कोई दस्तावेज़ किसके बारे में है। यह टेक्स्ट से knowledge graphs बनाने का पहला कदम भी है — आप उन entities के बीच संबंध नहीं बना सकते जिनकी आपने पहचान नहीं की है।

गहन अध्ययन

NER को आमतौर पर एक sequence labeling कार्य के रूप में तैयार किया जाता है: प्रत्येक token को B-PER (व्यक्ति नाम की शुरुआत), I-PER (व्यक्ति नाम के अंदर), O (entity नहीं) जैसा लेबल मिलता है। BIO tagging स्कीम बहु-शब्द entities को संभालती है: "New" को B-LOC मिलता है, "York" को I-LOC मिलता है। Fine-tuned BERT मॉडल उच्च-सटीकता NER के लिए मानक हैं, हालांकि spaCy का built-in NER त्वरित, पर्याप्त-अच्छे निष्कर्षण के लिए लोकप्रिय है।

Domain-विशिष्ट NER

सामान्य NER मॉडल सामान्य entity प्रकारों (व्यक्ति, संगठन, स्थान, तिथि) को संभालते हैं। Domain-विशिष्ट अनुप्रयोगों को कस्टम प्रकारों की आवश्यकता होती है: चिकित्सा NER दवाओं, लक्षणों और खुराक निकालता है। कानूनी NER केस नंबर, विधियों और पक्षों को निकालता है। वित्तीय NER ticker symbols, वित्तीय metrics और नियामक संदर्भों को निकालता है। इनके लिए domain-विशिष्ट प्रशिक्षण डेटा की आवश्यकता होती है, जो annotate करना महंगा है लेकिन विशेष संदर्भों में निष्कर्षण गुणवत्ता में नाटकीय सुधार करता है।

LLMs के साथ NER

LLMs prompting के माध्यम से NER कर सकते हैं: "इस टेक्स्ट से सभी व्यक्ति नाम और संगठन निकालें और JSON के रूप में लौटाएँ।" यह समर्पित NER मॉडलों की तुलना में धीमा और अधिक महंगा है लेकिन प्रशिक्षण डेटा के बिना नए entity प्रकारों को संभालता है और बिना किसी अतिरिक्त सेटअप के सभी भाषाओं में काम करता है। लाखों दस्तावेज़ों को प्रोसेस करने वाले production सिस्टम के लिए, समर्पित मॉडल लागत पर जीतते हैं। Ad-hoc निष्कर्षण या असामान्य entity प्रकारों के लिए, LLMs लचीलेपन पर जीतते हैं।

Named Entity Recognition

यह क्यों मायने रखता है

गहन अध्ययन

Domain-विशिष्ट NER

LLMs के साथ NER

संबंधित अवधारणाएँ