现代NMT使用编码器-解码器Transformer架构:编码器处理源语言句子,解码器通过交叉注意力关注编码后的源语言,逐token生成目标语言句子。训练需要平行语料库——两种语言数百万对齐的句子对。数据质量和领域匹配至关重要:在欧盟议会会议记录上训练的模型翻译法律文本很好,但翻译非正式聊天效果很差。
大语言模型已经成为有竞争力的翻译器,在高资源语言对上有时甚至超过专用MT系统。它们的优势:由于在多样化语境中见过语言的使用,因此更好地理解上下文、习语和文化差异。劣势:每句翻译比专用MT模型慢得多也贵得多。对于数百万句的实时翻译,专用模型(如Google翻译背后的模型)是必需的。对于较小量级的高质量翻译,LLM通常能产出更自然的结果。
MT质量在不同语言对之间差异巨大。英法、英西和英中得到了良好服务(丰富的训练数据)。但在世界上7000多种语言中,大多数语言对只有很少甚至没有平行训练数据。低资源翻译仍然是活跃的研究领域,方法包括:通过多语言模型的零样本翻译、回译(使用MT系统本身生成合成训练数据),以及从相关语言的迁移学习。