आधुनिक NMT encoder-decoder Transformer architecture का उपयोग करता है: encoder स्रोत वाक्य को प्रोसेस करता है, और decoder cross-attention के माध्यम से encoded स्रोत पर ध्यान देते हुए लक्ष्य वाक्य को token दर token उत्पन्न करता है। प्रशिक्षण के लिए समानांतर कॉर्पोरा की आवश्यकता होती है — दोनों भाषाओं में लाखों वाक्य जोड़े। डेटा गुणवत्ता और domain मिलान महत्वपूर्ण हैं: EU संसदीय कार्यवाही पर प्रशिक्षित मॉडल कानूनी टेक्स्ट का अच्छी तरह अनुवाद करता है लेकिन अनौपचारिक चैट का खराब।
बड़े भाषा मॉडल प्रतिस्पर्धी अनुवादक बन गए हैं, कभी-कभी उच्च-संसाधन भाषा जोड़ियों के लिए समर्पित MT सिस्टम से बेहतर प्रदर्शन करते हैं। उनका लाभ: वे संदर्भ, मुहावरों और सांस्कृतिक बारीकियों को बेहतर समझते हैं क्योंकि उन्होंने विविध संदर्भों में भाषा का उपयोग देखा है। उनका नुकसान: वे समर्पित MT मॉडलों की तुलना में प्रति वाक्य बहुत धीमे और अधिक महंगे हैं। लाखों वाक्यों के रीयल-टाइम अनुवाद के लिए, समर्पित मॉडल (जैसे Google Translate के पीछे वाले) आवश्यक हैं। छोटी मात्रा के गुणवत्ता-महत्वपूर्ण अनुवाद के लिए, LLMs अक्सर अधिक प्राकृतिक परिणाम देते हैं।
MT गुणवत्ता भाषा जोड़ियों में बहुत भिन्न होती है। अंग्रेज़ी-फ्रेंच, अंग्रेज़ी-स्पैनिश और अंग्रेज़ी-चीनी अच्छी तरह सेवित हैं (प्रचुर प्रशिक्षण डेटा)। लेकिन दुनिया की 7,000+ भाषाओं में, अधिकांश जोड़ियों में बहुत कम या कोई समानांतर प्रशिक्षण डेटा नहीं है। कम-संसाधन अनुवाद एक सक्रिय अनुसंधान क्षेत्र बना हुआ है, जिसमें बहुभाषी मॉडलों के माध्यम से zero-shot अनुवाद, back-translation और संबंधित भाषाओं से transfer learning जैसे दृष्टिकोण शामिल हैं।