Zubnet AIसीखेंWiki › Information Extraction
AI का उपयोग

Information Extraction

इसे भी कहा जाता है: IE, Structured Extraction
असंरचित टेक्स्ट से स्वचालित रूप से संरचित जानकारी निकालना। एक समाचार लेख से निकालें: किसने क्या किया, कब, कहाँ, और क्यों। एक अनुबंध से निकालें: पक्ष, तिथियाँ, दायित्व, और राशियाँ। IE NER (entities खोजना), relation extraction (entities के बीच संबंध खोजना), और event extraction (क्या हुआ खोजना) को एक एकीकृत pipeline में जोड़ता है।

यह क्यों मायने रखता है

दुनिया की अधिकांश जानकारी असंरचित टेक्स्ट में फँसी हुई है — ईमेल, रिपोर्ट, लेख, कानूनी दस्तावेज़, चिकित्सा रिकॉर्ड। Information extraction इस टेक्स्ट को संरचित डेटा में बदल देता है जिसे खोजा, विश्लेषित और क्रियान्वित किया जा सकता है। यह वह तकनीक है जो आपको दस्तावेज़ों के ढेर के बारे में database-शैली का प्रश्न पूछने देती है।

गहन अध्ययन

IE pipeline में पारंपरिक रूप से तीन चरण होते हैं: entity extraction (सभी व्यक्तियों, संगठनों, तिथियों, राशियों का उल्लेख खोजें), relation extraction (संबंध निर्धारित करें: "कंपनी X ने कंपनी Y को $Z में अधिग्रहण किया"), और coreference resolution (पहचानें कि "कंपनी," "Apple," और "यह" सभी एक ही entity को संदर्भित करते हैं)। प्रत्येक चरण पिछले चरण पर आधारित होकर संरचित, जुड़ी हुई जानकारी उत्पन्न करता है।

LLMs ने सब कुछ बदल दिया

LLMs ने IE pipeline को एक ही prompt में समेट दिया: "इस टेक्स्ट से सभी कंपनियों, व्यक्तियों, राशियों और तिथियों को निकालें। प्रत्येक के लिए, उनके संबंधों की पहचान करें। JSON के रूप में लौटाएँ।" यह सामान्य extraction कार्यों के लिए उल्लेखनीय रूप से अच्छा काम करता है और प्रत्येक उप-कार्य के लिए अलग मॉडलों की आवश्यकता को समाप्त करता है। ट्रेड-ऑफ: LLM extraction समर्पित मॉडलों की तुलना में धीमा और अधिक महँगा है, और आउटपुट format में कम अनुमानित है (structured output modes मदद करते हैं)।

Document Understanding

आधुनिक IE टेक्स्ट से आगे जाता है: document understanding मॉडल (LayoutLM, Donut) दृश्य रूप से समृद्ध दस्तावेज़ों (invoices, receipts, forms) से टेक्स्ट सामग्री और spatial layout दोनों को समझकर जानकारी निकालते हैं। एक invoice के निचले-दाएँ में "Total: $42.50" एक body paragraph में उसी टेक्स्ट से अलग अर्थ रखता है। ये मॉडल वास्तविक-दुनिया के दस्तावेज़ों से संरचित डेटा निकालने के लिए OCR, layout विश्लेषण, और NLP को जोड़ते हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← Inference Inpainting →
ESC