Zubnet AIसीखेंWiki › Machine Translation
AI का उपयोग

Machine Translation

इसे भी कहा जाता है: MT, Neural Machine Translation, NMT
एक भाषा से दूसरी भाषा में स्वचालित रूप से टेक्स्ट का अनुवाद करना। आधुनिक neural machine translation (NMT) समानांतर कॉर्पोरा (टेक्स्ट और उनके अनुवाद) पर प्रशिक्षित encoder-decoder Transformers का उपयोग करता है। Google Translate, DeepL और LLM-आधारित अनुवाद सभी इस दृष्टिकोण के विभिन्न संस्करणों का उपयोग करते हैं। गुणवत्ता में नाटकीय सुधार हुआ है — सामान्य भाषा जोड़ियों के लिए, MT नियमित सामग्री के लिए पेशेवर मानव अनुवाद के करीब पहुँचता है।

यह क्यों मायने रखता है

Machine translation बड़े पैमाने पर भाषा की बाधाओं को तोड़ता है। यह वैश्विक वाणिज्य, cross-language खोज, रीयल-टाइम संचार, और भाषाओं के बीच सूचना तक पहुँच को सक्षम बनाता है। AI के लिए विशेष रूप से, MT वह तरीका है जिससे मुख्य रूप से अंग्रेज़ी पर प्रशिक्षित मॉडल 100+ भाषाओं में उपयोगकर्ताओं की सेवा कर सकते हैं — और यही कारण है कि बहुभाषी tokenizer दक्षता लागत के लिए मायने रखती है।

गहन अध्ययन

आधुनिक NMT encoder-decoder Transformer architecture का उपयोग करता है: encoder स्रोत वाक्य को प्रोसेस करता है, और decoder cross-attention के माध्यम से encoded स्रोत पर ध्यान देते हुए लक्ष्य वाक्य को token दर token उत्पन्न करता है। प्रशिक्षण के लिए समानांतर कॉर्पोरा की आवश्यकता होती है — दोनों भाषाओं में लाखों वाक्य जोड़े। डेटा गुणवत्ता और domain मिलान महत्वपूर्ण हैं: EU संसदीय कार्यवाही पर प्रशिक्षित मॉडल कानूनी टेक्स्ट का अच्छी तरह अनुवाद करता है लेकिन अनौपचारिक चैट का खराब।

अनुवादक के रूप में LLMs

बड़े भाषा मॉडल प्रतिस्पर्धी अनुवादक बन गए हैं, कभी-कभी उच्च-संसाधन भाषा जोड़ियों के लिए समर्पित MT सिस्टम से बेहतर प्रदर्शन करते हैं। उनका लाभ: वे संदर्भ, मुहावरों और सांस्कृतिक बारीकियों को बेहतर समझते हैं क्योंकि उन्होंने विविध संदर्भों में भाषा का उपयोग देखा है। उनका नुकसान: वे समर्पित MT मॉडलों की तुलना में प्रति वाक्य बहुत धीमे और अधिक महंगे हैं। लाखों वाक्यों के रीयल-टाइम अनुवाद के लिए, समर्पित मॉडल (जैसे Google Translate के पीछे वाले) आवश्यक हैं। छोटी मात्रा के गुणवत्ता-महत्वपूर्ण अनुवाद के लिए, LLMs अक्सर अधिक प्राकृतिक परिणाम देते हैं।

भाषाओं की लंबी पूँछ

MT गुणवत्ता भाषा जोड़ियों में बहुत भिन्न होती है। अंग्रेज़ी-फ्रेंच, अंग्रेज़ी-स्पैनिश और अंग्रेज़ी-चीनी अच्छी तरह सेवित हैं (प्रचुर प्रशिक्षण डेटा)। लेकिन दुनिया की 7,000+ भाषाओं में, अधिकांश जोड़ियों में बहुत कम या कोई समानांतर प्रशिक्षण डेटा नहीं है। कम-संसाधन अनुवाद एक सक्रिय अनुसंधान क्षेत्र बना हुआ है, जिसमें बहुभाषी मॉडलों के माध्यम से zero-shot अनुवाद, back-translation और संबंधित भाषाओं से transfer learning जैसे दृष्टिकोण शामिल हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← Luma AI Mamba →
ESC