BLEU calcula la precisión: ¿qué fracción de n-gramas (1-gramas, 2-gramas, 3-gramas, 4-gramas) del texto generado también aparecen en la referencia? ROUGE calcula el recall: ¿qué fracción de n-gramas de la referencia también aparecen en el texto generado? BLEU penaliza las salidas que son demasiado cortas (penalización por brevedad). ROUGE-L usa la subsecuencia común más larga en lugar de n-gramas fijos, capturando el orden de las palabras de forma más flexible.
Ambas métricas recompensan la similitud superficial con las referencias. Una paráfrasis perfecta obtiene una puntuación baja (diferentes palabras, mismo significado). Un texto repetitivo y sin sentido que casualmente reutiliza n-gramas de referencia puede obtener una puntuación alta. También requieren textos de referencia, lo que las limita a tareas donde existen respuestas "correctas". Para generación abierta (escritura creativa, conversación), no hay una única referencia correcta para comparar.
El campo se ha movido hacia: BERTScore (usa similitud de embeddings en lugar de coincidencia de n-gramas, captura mejor la paráfrasis), evaluación basada en modelos (usar un LLM para juzgar la calidad de la salida) y evaluación humana (el estándar de oro pero costoso). Para la evaluación de LLMs específicamente, benchmarks como MMLU, HumanEval y Chatbot Arena han reemplazado a BLEU/ROUGE como las principales métricas de comparación. Pero BLEU y ROUGE siguen siendo útiles para traducción y resumen donde la comparación con referencias tiene sentido.