Information Extraction: परिभाषा और अर्थ — AI विकी

असंरचित टेक्स्ट से स्वचालित रूप से संरचित जानकारी निकालना। एक समाचार लेख से निकालें: किसने क्या किया, कब, कहाँ, और क्यों। एक अनुबंध से निकालें: पक्ष, तिथियाँ, दायित्व, और राशियाँ। IE NER (entities खोजना), relation extraction (entities के बीच संबंध खोजना), और event extraction (क्या हुआ खोजना) को एक एकीकृत pipeline में जोड़ता है।

यह क्यों मायने रखता है

दुनिया की अधिकांश जानकारी असंरचित टेक्स्ट में फँसी हुई है — ईमेल, रिपोर्ट, लेख, कानूनी दस्तावेज़, चिकित्सा रिकॉर्ड। Information extraction इस टेक्स्ट को संरचित डेटा में बदल देता है जिसे खोजा, विश्लेषित और क्रियान्वित किया जा सकता है। यह वह तकनीक है जो आपको दस्तावेज़ों के ढेर के बारे में database-शैली का प्रश्न पूछने देती है।

गहन अध्ययन

IE pipeline में पारंपरिक रूप से तीन चरण होते हैं: entity extraction (सभी व्यक्तियों, संगठनों, तिथियों, राशियों का उल्लेख खोजें), relation extraction (संबंध निर्धारित करें: "कंपनी X ने कंपनी Y को $Z में अधिग्रहण किया"), और coreference resolution (पहचानें कि "कंपनी," "Apple," और "यह" सभी एक ही entity को संदर्भित करते हैं)। प्रत्येक चरण पिछले चरण पर आधारित होकर संरचित, जुड़ी हुई जानकारी उत्पन्न करता है।

LLMs ने सब कुछ बदल दिया

LLMs ने IE pipeline को एक ही prompt में समेट दिया: "इस टेक्स्ट से सभी कंपनियों, व्यक्तियों, राशियों और तिथियों को निकालें। प्रत्येक के लिए, उनके संबंधों की पहचान करें। JSON के रूप में लौटाएँ।" यह सामान्य extraction कार्यों के लिए उल्लेखनीय रूप से अच्छा काम करता है और प्रत्येक उप-कार्य के लिए अलग मॉडलों की आवश्यकता को समाप्त करता है। ट्रेड-ऑफ: LLM extraction समर्पित मॉडलों की तुलना में धीमा और अधिक महँगा है, और आउटपुट format में कम अनुमानित है (structured output modes मदद करते हैं)।

Document Understanding

आधुनिक IE टेक्स्ट से आगे जाता है: document understanding मॉडल (LayoutLM, Donut) दृश्य रूप से समृद्ध दस्तावेज़ों (invoices, receipts, forms) से टेक्स्ट सामग्री और spatial layout दोनों को समझकर जानकारी निकालते हैं। एक invoice के निचले-दाएँ में "Total: $42.50" एक body paragraph में उसी टेक्स्ट से अलग अर्थ रखता है। ये मॉडल वास्तविक-दुनिया के दस्तावेज़ों से संरचित डेटा निकालने के लिए OCR, layout विश्लेषण, और NLP को जोड़ते हैं।

Information Extraction

यह क्यों मायने रखता है

गहन अध्ययन

LLMs ने सब कुछ बदल दिया

Document Understanding

संबंधित अवधारणाएँ