BLEU计算精确率:生成文本中有多少比例的n-gram(1-gram、2-gram、3-gram、4-gram)也出现在参考文本中?ROUGE计算召回率:参考文本中有多少比例的n-gram也出现在生成文本中?BLEU对过短的输出进行惩罚(简短惩罚)。ROUGE-L使用最长公共子序列代替固定n-gram,更灵活地捕捉词序。
两个指标都奖励与参考的表面相似性。一个完美的意译得分很低(不同的词,相同的含义)。一段重复的、无意义的文本如果恰好重用了参考的n-gram,可能得分很高。它们还需要参考文本,这限制了它们只能用于存在“正确”答案的任务。对于开放式生成(创意写作、对话),没有单一的正确参考可供比较。
该领域已转向:BERTScore(使用嵌入相似度代替n-gram匹配,更好地捕捉意译)、基于模型的评估(使用LLM判断输出质量)、以及人工评估(金标准但成本高昂)。对于LLM评估,MMLU、HumanEval和Chatbot Arena等基准已取代BLEU/ROUGE成为主要比较指标。但BLEU和ROUGE在翻译和摘要等参考比较有意义的场景中仍然有用。