Zubnet AIApprendreWiki › BLEU & ROUGE
Fondamentaux

BLEU & ROUGE

BLEU Score, ROUGE Score
Des métriques classiques pour évaluer la qualité de génération de texte en comparant la sortie du modèle aux textes de référence. BLEU (Bilingual Evaluation Understudy) mesure combien de n-grammes dans le texte généré apparaissent dans la référence — originalement conçu pour la traduction automatique. ROUGE (Recall-Oriented Understudy for Gisting Evaluation) mesure combien de n-grammes de la référence apparaissent dans le texte généré — conçu pour le résumé.

Pourquoi c'est important

BLEU et ROUGE ont été les métriques d'évaluation standard pour le NLP pendant plus d'une décennie et sont encore largement utilisées. Les comprendre — et leurs limitations — t'aide à évaluer les affirmations de recherche NLP et à comprendre pourquoi le domaine bouge vers l'évaluation humaine et basée sur modèle. Un haut score BLEU ne garantit pas la qualité ; un bas score BLEU ne garantit pas l'échec.

Deep Dive

BLEU computes precision: what fraction of n-grams (1-grams, 2-grams, 3-grams, 4-grams) in the generated text also appear in the reference? ROUGE computes recall: what fraction of n-grams in the reference also appear in the generated text? BLEU penalizes outputs that are too short (brevity penalty). ROUGE-L uses longest common subsequence instead of fixed n-grams, capturing word order more flexibly.

Why They're Flawed

Both metrics reward surface-level similarity to references. A perfect paraphrase scores poorly (different words, same meaning). A repetitive, nonsensical text that happens to reuse reference n-grams can score well. They also require reference texts, which limits them to tasks where "correct" answers exist. For open-ended generation (creative writing, conversation), there's no single correct reference to compare against.

Modern Alternatives

The field has moved toward: BERTScore (uses embedding similarity instead of n-gram matching, captures paraphrase better), model-based evaluation (using an LLM to judge output quality), and human evaluation (the gold standard but expensive). For LLM evaluation specifically, benchmarks like MMLU, HumanEval, and Chatbot Arena have replaced BLEU/ROUGE as the primary comparison metrics. But BLEU and ROUGE remain useful for translation and summarization where reference comparison makes sense.

Concepts liés

← Tous les termes
← Black Forest Labs BPE →