研究人员开发了一种低成本方法,通过比较正向和反向翻译模型之间的注意力模式来检测神经机器翻译模型何时产生幻觉。该技术利用现有的双向翻译设置——大多数组织已经运行语言1→语言2和语言2→语言1模型——来识别token级别的不确定性,无需昂贵的重新训练或生成多个输出。

这解决了一个现实问题:Google Translate和类似系统只显示最终翻译,隐藏了可以帮助更有效分配计算资源的置信度级别。当前的解决方案如Semantic Entropy需要为每个输入生成5-10个输出(计算昂贵),而最先进的质量评估模型如xCOMET需要在昂贵的标注数据上微调35亿个参数。新方法通过使用teacher forcing从现有模型对中提取转置的交叉注意力图来规避这两个问题。

这项研究的出现正值专业翻译人员对AI翻译工具表达越来越多的担忧,根据对跨11种语言的19名翻译人员的访谈在相关工作中发表。这些翻译人员担心工作被外包给自动化系统,突出了翻译AI透明度的重要性——这正是注意力错位方法可以提供的。对比鲜明:研究人员专注于技术不确定性检测,而从业者想了解何时以及为什么要信任AI翻译。

对于构建翻译系统的开发者来说,这种方法提供了实际优势。与不解释模型为什么不确定的黑盒概率分数不同,注意力错位揭示了不确定性是源于未见过的训练样本还是实际幻觉。大多数生产翻译设置已经具备所需的双向模型,使得实施变得直接,无需额外的基础设施成本。