BLEU 與 ROUGE：定義與含義 — AI 維基

通過將模型輸出與參考文本進行比較來評估文本生成品質的經典指標。BLEU（雙語評估替代方法）衡量生成文本中有多少 n-gram 出現在參考文本中 — 最初設計用於機器翻譯。ROUGE（面向召回的摘要評估替代方法）衡量參考文本中有多少 n-gram 出現在生成文本中 — 設計用於摘要。

為什麼重要

BLEU 和 ROUGE 是自然語言處理超過十年的標準評估指標，至今仍被廣泛使用。理解它們 — 以及它們的局限性 — 有助於你評估 NLP 研究聲稱並理解該領域為何正轉向人工評估和基於模型的評估。高 BLEU 分數不保證品質；低 BLEU 分數不保證失敗。

深度解析

BLEU 計算精確率：生成文本中有多少比例的 n-gram（1-gram、2-gram、3-gram、4-gram）也出現在參考文本中？ROUGE 計算召回率：參考文本中有多少比例的 n-gram 也出現在生成文本中？BLEU 對過短的輸出施加懲罰（簡短懲罰）。ROUGE-L 使用最長公共子序列而非固定 n-gram，更靈活地捕捉詞序。

為什麼它們有缺陷

兩種指標都獎勵與參考文本的表面相似性。一個完美的改述得分很低（不同的詞，相同的意思）。一段重複、無意義但恰好重用參考 n-gram 的文本可能得分很高。它們也需要參考文本，這將其限制在存在「正確」答案的任務上。對於開放式生成（創意寫作、對話），沒有單一的正確參考可供比較。

現代替代方案

該領域已轉向：BERTScore（使用嵌入相似性而非 n-gram 匹配，更好地捕捉改述）、基於模型的評估（使用 LLM 來判斷輸出品質）和人工評估（黃金標準但昂貴）。特別是對於 LLM 評估，MMLU、HumanEval 和 Chatbot Arena 等基準測試已取代 BLEU/ROUGE 成為主要的比較指標。但 BLEU 和 ROUGE 在參考比較有意義的翻譯和摘要方面仍然有用。

BLEU 與 ROUGE

為什麼重要

深度解析

為什麼它們有缺陷

現代替代方案

相關概念