Machine Translation: परिभाषा और अर्थ — AI विकी

एक भाषा से दूसरी भाषा में स्वचालित रूप से टेक्स्ट का अनुवाद करना। आधुनिक neural machine translation (NMT) समानांतर कॉर्पोरा (टेक्स्ट और उनके अनुवाद) पर प्रशिक्षित encoder-decoder Transformers का उपयोग करता है। Google Translate, DeepL और LLM-आधारित अनुवाद सभी इस दृष्टिकोण के विभिन्न संस्करणों का उपयोग करते हैं। गुणवत्ता में नाटकीय सुधार हुआ है — सामान्य भाषा जोड़ियों के लिए, MT नियमित सामग्री के लिए पेशेवर मानव अनुवाद के करीब पहुँचता है।

यह क्यों मायने रखता है

Machine translation बड़े पैमाने पर भाषा की बाधाओं को तोड़ता है। यह वैश्विक वाणिज्य, cross-language खोज, रीयल-टाइम संचार, और भाषाओं के बीच सूचना तक पहुँच को सक्षम बनाता है। AI के लिए विशेष रूप से, MT वह तरीका है जिससे मुख्य रूप से अंग्रेज़ी पर प्रशिक्षित मॉडल 100+ भाषाओं में उपयोगकर्ताओं की सेवा कर सकते हैं — और यही कारण है कि बहुभाषी tokenizer दक्षता लागत के लिए मायने रखती है।

गहन अध्ययन

आधुनिक NMT encoder-decoder Transformer architecture का उपयोग करता है: encoder स्रोत वाक्य को प्रोसेस करता है, और decoder cross-attention के माध्यम से encoded स्रोत पर ध्यान देते हुए लक्ष्य वाक्य को token दर token उत्पन्न करता है। प्रशिक्षण के लिए समानांतर कॉर्पोरा की आवश्यकता होती है — दोनों भाषाओं में लाखों वाक्य जोड़े। डेटा गुणवत्ता और domain मिलान महत्वपूर्ण हैं: EU संसदीय कार्यवाही पर प्रशिक्षित मॉडल कानूनी टेक्स्ट का अच्छी तरह अनुवाद करता है लेकिन अनौपचारिक चैट का खराब।

अनुवादक के रूप में LLMs

बड़े भाषा मॉडल प्रतिस्पर्धी अनुवादक बन गए हैं, कभी-कभी उच्च-संसाधन भाषा जोड़ियों के लिए समर्पित MT सिस्टम से बेहतर प्रदर्शन करते हैं। उनका लाभ: वे संदर्भ, मुहावरों और सांस्कृतिक बारीकियों को बेहतर समझते हैं क्योंकि उन्होंने विविध संदर्भों में भाषा का उपयोग देखा है। उनका नुकसान: वे समर्पित MT मॉडलों की तुलना में प्रति वाक्य बहुत धीमे और अधिक महंगे हैं। लाखों वाक्यों के रीयल-टाइम अनुवाद के लिए, समर्पित मॉडल (जैसे Google Translate के पीछे वाले) आवश्यक हैं। छोटी मात्रा के गुणवत्ता-महत्वपूर्ण अनुवाद के लिए, LLMs अक्सर अधिक प्राकृतिक परिणाम देते हैं।

भाषाओं की लंबी पूँछ

MT गुणवत्ता भाषा जोड़ियों में बहुत भिन्न होती है। अंग्रेज़ी-फ्रेंच, अंग्रेज़ी-स्पैनिश और अंग्रेज़ी-चीनी अच्छी तरह सेवित हैं (प्रचुर प्रशिक्षण डेटा)। लेकिन दुनिया की 7,000+ भाषाओं में, अधिकांश जोड़ियों में बहुत कम या कोई समानांतर प्रशिक्षण डेटा नहीं है। कम-संसाधन अनुवाद एक सक्रिय अनुसंधान क्षेत्र बना हुआ है, जिसमें बहुभाषी मॉडलों के माध्यम से zero-shot अनुवाद, back-translation और संबंधित भाषाओं से transfer learning जैसे दृष्टिकोण शामिल हैं।

Machine Translation

यह क्यों मायने रखता है

गहन अध्ययन

अनुवादक के रूप में LLMs

भाषाओं की लंबी पूँछ

संबंधित अवधारणाएँ