BLEU & ROUGE : Définition et signification — Wiki IA

Des métriques classiques pour évaluer la qualité de la génération de texte en comparant la sortie du modèle à des textes de référence. BLEU (Bilingual Evaluation Understudy) mesure combien de n-grammes du texte généré apparaissent dans la référence — conçu à l'origine pour la traduction automatique. ROUGE (Recall-Oriented Understudy for Gisting Evaluation) mesure combien de n-grammes de la référence apparaissent dans le texte généré — conçu pour le résumé automatique.

Pourquoi c'est important

BLEU et ROUGE ont été les métriques d'évaluation standard en NLP pendant plus d'une décennie et sont encore largement utilisés. Les comprendre — et comprendre leurs limites — t'aide à évaluer les claims de recherche en NLP et à comprendre pourquoi le domaine se tourne vers l'évaluation humaine et l'évaluation par modèle. Un score BLEU élevé ne garantit pas la qualité ; un score BLEU faible ne garantit pas l'échec.

En profondeur

BLEU calcule la précision : quelle fraction des n-grammes (1-grammes, 2-grammes, 3-grammes, 4-grammes) du texte généré apparaît aussi dans la référence ? ROUGE calcule le rappel : quelle fraction des n-grammes de la référence apparaît aussi dans le texte généré ? BLEU pénalise les sorties trop courtes (pénalité de brièveté). ROUGE-L utilise la plus longue sous-séquence commune au lieu de n-grammes fixes, capturant l'ordre des mots de façon plus flexible.

Pourquoi elles sont imparfaites

Les deux métriques récompensent la similarité de surface avec les références. Une paraphrase parfaite obtient un mauvais score (mots différents, même sens). Un texte répétitif et incohérent qui réutilise par hasard les n-grammes de la référence peut obtenir un bon score. Elles nécessitent aussi des textes de référence, ce qui les limite aux tâches où des réponses « correctes » existent. Pour la génération ouverte (écriture créative, conversation), il n'y a pas de référence unique correcte à comparer.

Alternatives modernes

Le domaine a évolué vers : BERTScore (utilise la similarité d'embeddings au lieu de la correspondance de n-grammes, capture mieux la paraphrase), l'évaluation par modèle (utiliser un LLM pour juger la qualité de la sortie), et l'évaluation humaine (l'étalon-or mais coûteux). Pour l'évaluation de LLM spécifiquement, des benchmarks comme MMLU, HumanEval et Chatbot Arena ont remplacé BLEU/ROUGE comme principales métriques de comparaison. Mais BLEU et ROUGE restent utiles pour la traduction et le résumé où la comparaison à une référence a du sens.

BLEU & ROUGE

Pourquoi c'est important

En profondeur

Pourquoi elles sont imparfaites

Alternatives modernes

Concepts connexes