BLEU & ROUGE：定义与含义 — AI 维基

通过将模型输出与参考文本进行比较来评估文本生成质量的经典指标。BLEU（双语评估替补）衡量生成文本中有多少n-gram出现在参考文本中——最初为机器翻译设计。ROUGE（面向召回的摘要评估替补）衡量参考文本中有多少n-gram出现在生成文本中——为自动摘要设计。

为什么重要

BLEU和ROUGE十多年来一直是NLP的标准评估指标，至今仍被广泛使用。理解它们——以及它们的局限性——有助于你评估NLP研究声明并理解为什么该领域正在转向人工评估和基于模型的评估。高BLEU分数不保证质量；低BLEU分数不保证失败。

深度解析

BLEU计算精确率：生成文本中有多少比例的n-gram（1-gram、2-gram、3-gram、4-gram）也出现在参考文本中？ROUGE计算召回率：参考文本中有多少比例的n-gram也出现在生成文本中？BLEU对过短的输出进行惩罚（简短惩罚）。ROUGE-L使用最长公共子序列代替固定n-gram，更灵活地捕捉词序。

为什么它们有缺陷

两个指标都奖励与参考的表面相似性。一个完美的意译得分很低（不同的词，相同的含义）。一段重复的、无意义的文本如果恰好重用了参考的n-gram，可能得分很高。它们还需要参考文本，这限制了它们只能用于存在“正确”答案的任务。对于开放式生成（创意写作、对话），没有单一的正确参考可供比较。

现代替代方案

该领域已转向：BERTScore（使用嵌入相似度代替n-gram匹配，更好地捕捉意译）、基于模型的评估（使用LLM判断输出质量）、以及人工评估（金标准但成本高昂）。对于LLM评估，MMLU、HumanEval和Chatbot Arena等基准已取代BLEU/ROUGE成为主要比较指标。但BLEU和ROUGE在翻译和摘要等参考比较有意义的场景中仍然有用。

BLEU & ROUGE

为什么重要

深度解析

为什么它们有缺陷

现代替代方案

相关概念