現代 NMT 使用編碼器-解碼器 Transformer 架構:編碼器處理來源句子,解碼器透過交叉注意力關注編碼後的來源,逐 token 生成目標句子。訓練需要平行語料庫——兩種語言各數百萬句對。資料品質和領域匹配至關重要:在歐盟議會文件上訓練的模型能很好地翻譯法律文字,但對非正式聊天就差了。
大型語言模型已成為有競爭力的翻譯器,有時在高資源語言對上甚至超越專用的 MT 系統。它們的優勢:因為在多樣化的語境中接觸過語言使用,所以更能理解上下文、慣用語和文化細微差異。它們的劣勢:每個句子的速度更慢、成本更高。對於數百萬句的即時翻譯,專用模型(如 Google 翻譯背後的模型)是必需的。對於較小量的高品質翻譯,LLM 通常能產出更自然的結果。
MT 品質在不同語言對之間差異巨大。英法、英西和英中翻譯服務完善(訓練資料充足)。但對於世界上 7,000 多種語言,大多數語言對幾乎沒有平行訓練資料。低資源翻譯仍是活躍的研究領域,方法包括:透過多語言模型進行零樣本翻譯、反向翻譯(使用 MT 系統本身生成合成訓練資料),以及從相關語言進行遷移學習。