Language Detection: परिभाषा और अर्थ — AI विकी

स्वचालित रूप से पहचानना कि कोई टेक्स्ट किस भाषा में लिखा गया है। "Bonjour le monde" → फ़्रेंच। "こんにちは世界" → जापानी। आधुनिक मॉडल बस कुछ शब्दों से 100+ भाषाओं को पहचान सकते हैं, मिश्रित-भाषा टेक्स्ट (code-switching) को संभाल सकते हैं, और निकट से संबंधित भाषाओं (Norwegian बनाम Danish, Malay बनाम Indonesian) की पहचान कर सकते हैं।

यह क्यों मायने रखता है

Language detection किसी भी बहुभाषी pipeline में आवश्यक पहला चरण है: आपको इनपुट की भाषा जानने की ज़रूरत है इससे पहले कि आप इसका अनुवाद करें, इसे सही मॉडल पर भेजें, या भाषा-विशिष्ट processing लागू करें। इसका उपयोग search engines, customer support routing, content moderation, और हर उस प्रणाली में होता है जो दुनिया भर के उपयोगकर्ताओं से टेक्स्ट संभालती है।

गहन अध्ययन

सरल दृष्टिकोण character n-gram statistics का उपयोग करते हैं: प्रत्येक भाषा में विशिष्ट character patterns होते हैं ("th" अंग्रेज़ी में सामान्य है, "tion" फ़्रेंच में, "ung" जर्मन में)। FastText का language identification मॉडल character n-grams के साथ एक shallow neural network का उपयोग करता है और एक वाक्य से ही उच्च सटीकता के साथ 176 भाषाओं की पहचान कर सकता है। बहुत छोटे टेक्स्ट (कुछ शब्द) के लिए, सटीकता गिर जाती है क्योंकि पर्याप्त signal नहीं होता।

कठिन मामले

कुछ भाषा जोड़ियों को अलग करना अत्यंत कठिन है: Serbian (Cyrillic) बनाम Serbian (Latin) बनाम Croatian बनाम Bosnian अधिकांश शब्दावली और व्याकरण साझा करते हैं। Simplified बनाम Traditional Chinese को विशिष्ट character विकल्पों की जाँच की आवश्यकता है। "no" जैसा छोटा अस्पष्ट टेक्स्ट अंग्रेज़ी, स्पेनिश, इतालवी, या पुर्तगाली हो सकता है। Code-switched टेक्स्ट ("I went to the tienda to buy leche") एक वाक्य में भाषाएँ मिलाता है। मज़बूत प्रणालियाँ कठोर वर्गीकरण के बजाय सांख्यिकीय confidence scores के माध्यम से इन edge cases को संभालती हैं।

व्यवहार में

अधिकांश अनुप्रयोगों के लिए, Google का CLD3, FastText का lid.176.bin, या langdetect Python लाइब्रेरी पर्याप्त सटीकता प्रदान करते हैं। LLMs भी अपने प्रशिक्षण के उप-उत्पाद के रूप में भाषा का पता लगा सकते हैं, हालाँकि language detection के लिए 70B मॉडल का उपयोग करना मक्खन काटने के लिए chainsaw का उपयोग करने जैसा है। व्यावहारिक architecture: पहले तेज़ language detection (FastText, <1ms), फिर भाषा-विशिष्ट processing पर भेजें।

Language Detection

यह क्यों मायने रखता है

गहन अध्ययन

कठिन मामले

व्यवहार में

संबंधित अवधारणाएँ