BLEU calcule la précision : quelle fraction des n-grammes (1-grammes, 2-grammes, 3-grammes, 4-grammes) du texte généré apparaît aussi dans la référence ? ROUGE calcule le rappel : quelle fraction des n-grammes de la référence apparaît aussi dans le texte généré ? BLEU pénalise les sorties trop courtes (pénalité de brièveté). ROUGE-L utilise la plus longue sous-séquence commune au lieu de n-grammes fixes, capturant l'ordre des mots de façon plus flexible.
Les deux métriques récompensent la similarité de surface avec les références. Une paraphrase parfaite obtient un mauvais score (mots différents, même sens). Un texte répétitif et incohérent qui réutilise par hasard les n-grammes de la référence peut obtenir un bon score. Elles nécessitent aussi des textes de référence, ce qui les limite aux tâches où des réponses « correctes » existent. Pour la génération ouverte (écriture créative, conversation), il n'y a pas de référence unique correcte à comparer.
Le domaine a évolué vers : BERTScore (utilise la similarité d'embeddings au lieu de la correspondance de n-grammes, capture mieux la paraphrase), l'évaluation par modèle (utiliser un LLM pour juger la qualité de la sortie), et l'évaluation humaine (l'étalon-or mais coûteux). Pour l'évaluation de LLM spécifiquement, des benchmarks comme MMLU, HumanEval et Chatbot Arena ont remplacé BLEU/ROUGE comme principales métriques de comparaison. Mais BLEU et ROUGE restent utiles pour la traduction et le résumé où la comparaison à une référence a du sens.