Zubnet AIसीखेंWiki › Named Entity Recognition
AI का उपयोग

Named Entity Recognition

इसे भी कहा जाता है: NER, Entity निष्कर्षण
टेक्स्ट में नामित entities की पहचान और वर्गीकरण करना — व्यक्ति, संगठन, स्थान, तिथियाँ, मौद्रिक राशियाँ और अन्य उचित संज्ञाएँ। "Apple ने मंगलवार को म्यूनिख में $3B निवेश की घोषणा की" में, NER Apple (संगठन), $3B (धन), म्यूनिख (स्थान) और मंगलवार (तिथि) की पहचान करता है। यह सूचना निष्कर्षण, खोज और knowledge graph निर्माण में उपयोग किया जाने वाला एक मूलभूत NLP कार्य है।

यह क्यों मायने रखता है

NER असंरचित टेक्स्ट से संरचित सूचना निष्कर्षण की रीढ़ है। हर search engine, समाचार aggregator और intelligence सिस्टम NER का उपयोग यह समझने के लिए करता है कि कोई दस्तावेज़ किसके बारे में है। यह टेक्स्ट से knowledge graphs बनाने का पहला कदम भी है — आप उन entities के बीच संबंध नहीं बना सकते जिनकी आपने पहचान नहीं की है।

गहन अध्ययन

NER को आमतौर पर एक sequence labeling कार्य के रूप में तैयार किया जाता है: प्रत्येक token को B-PER (व्यक्ति नाम की शुरुआत), I-PER (व्यक्ति नाम के अंदर), O (entity नहीं) जैसा लेबल मिलता है। BIO tagging स्कीम बहु-शब्द entities को संभालती है: "New" को B-LOC मिलता है, "York" को I-LOC मिलता है। Fine-tuned BERT मॉडल उच्च-सटीकता NER के लिए मानक हैं, हालांकि spaCy का built-in NER त्वरित, पर्याप्त-अच्छे निष्कर्षण के लिए लोकप्रिय है।

Domain-विशिष्ट NER

सामान्य NER मॉडल सामान्य entity प्रकारों (व्यक्ति, संगठन, स्थान, तिथि) को संभालते हैं। Domain-विशिष्ट अनुप्रयोगों को कस्टम प्रकारों की आवश्यकता होती है: चिकित्सा NER दवाओं, लक्षणों और खुराक निकालता है। कानूनी NER केस नंबर, विधियों और पक्षों को निकालता है। वित्तीय NER ticker symbols, वित्तीय metrics और नियामक संदर्भों को निकालता है। इनके लिए domain-विशिष्ट प्रशिक्षण डेटा की आवश्यकता होती है, जो annotate करना महंगा है लेकिन विशेष संदर्भों में निष्कर्षण गुणवत्ता में नाटकीय सुधार करता है।

LLMs के साथ NER

LLMs prompting के माध्यम से NER कर सकते हैं: "इस टेक्स्ट से सभी व्यक्ति नाम और संगठन निकालें और JSON के रूप में लौटाएँ।" यह समर्पित NER मॉडलों की तुलना में धीमा और अधिक महंगा है लेकिन प्रशिक्षण डेटा के बिना नए entity प्रकारों को संभालता है और बिना किसी अतिरिक्त सेटअप के सभी भाषाओं में काम करता है। लाखों दस्तावेज़ों को प्रोसेस करने वाले production सिस्टम के लिए, समर्पित मॉडल लागत पर जीतते हैं। Ad-hoc निष्कर्षण या असामान्य entity प्रकारों के लिए, LLMs लचीलेपन पर जीतते हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← Music Generation Negative Prompt →
ESC