BLEU y ROUGE: Definición y significado — Wiki de IA

Métricas clásicas para evaluar la calidad de generación de texto comparando la salida del modelo con textos de referencia. BLEU (Bilingual Evaluation Understudy) mide cuántos n-gramas del texto generado aparecen en la referencia — diseñado originalmente para traducción automática. ROUGE (Recall-Oriented Understudy for Gisting Evaluation) mide cuántos n-gramas de la referencia aparecen en el texto generado — diseñado para resúmenes.

Por qué importa

BLEU y ROUGE fueron las métricas de evaluación estándar para NLP durante más de una década y todavía se usan ampliamente. Entenderlas — y sus limitaciones — te ayuda a evaluar afirmaciones de investigación en NLP y a comprender por qué el campo se está moviendo hacia la evaluación humana y la evaluación basada en modelos. Una puntuación BLEU alta no garantiza calidad; una puntuación BLEU baja no garantiza fracaso.

En profundidad

BLEU calcula la precisión: ¿qué fracción de n-gramas (1-gramas, 2-gramas, 3-gramas, 4-gramas) del texto generado también aparecen en la referencia? ROUGE calcula el recall: ¿qué fracción de n-gramas de la referencia también aparecen en el texto generado? BLEU penaliza las salidas que son demasiado cortas (penalización por brevedad). ROUGE-L usa la subsecuencia común más larga en lugar de n-gramas fijos, capturando el orden de las palabras de forma más flexible.

Por qué son defectuosas

Ambas métricas recompensan la similitud superficial con las referencias. Una paráfrasis perfecta obtiene una puntuación baja (diferentes palabras, mismo significado). Un texto repetitivo y sin sentido que casualmente reutiliza n-gramas de referencia puede obtener una puntuación alta. También requieren textos de referencia, lo que las limita a tareas donde existen respuestas "correctas". Para generación abierta (escritura creativa, conversación), no hay una única referencia correcta para comparar.

Alternativas modernas

El campo se ha movido hacia: BERTScore (usa similitud de embeddings en lugar de coincidencia de n-gramas, captura mejor la paráfrasis), evaluación basada en modelos (usar un LLM para juzgar la calidad de la salida) y evaluación humana (el estándar de oro pero costoso). Para la evaluación de LLMs específicamente, benchmarks como MMLU, HumanEval y Chatbot Arena han reemplazado a BLEU/ROUGE como las principales métricas de comparación. Pero BLEU y ROUGE siguen siendo útiles para traducción y resumen donde la comparación con referencias tiene sentido.

BLEU y ROUGE

Por qué importa

En profundidad

Por qué son defectuosas

Alternativas modernas

Conceptos relacionados