BLEU computa precisão: que fração dos n-grams (1-grams, 2-grams, 3-grams, 4-grams) no texto gerado também aparecem na referência? ROUGE computa recall: que fração dos n-grams na referência também aparecem no texto gerado? BLEU penaliza saídas que são muito curtas (penalidade de brevidade). ROUGE-L usa a subsequência comum mais longa em vez de n-grams fixos, capturando a ordem das palavras de forma mais flexível.
Ambas as métricas recompensam similaridade superficial com referências. Uma paráfrase perfeita pontua mal (palavras diferentes, mesmo significado). Um texto repetitivo e sem sentido que por acaso reutiliza n-grams de referência pode pontuar bem. Elas também requerem textos de referência, o que as limita a tarefas onde respostas "corretas" existem. Para geração aberta (escrita criativa, conversa), não há uma única referência correta para comparar.
O campo avançou para: BERTScore (usa similaridade de embeddings em vez de correspondência de n-grams, captura paráfrases melhor), avaliação baseada em modelo (usar um LLM para julgar qualidade de saída) e avaliação humana (o padrão ouro, mas caro). Para avaliação de LLMs especificamente, benchmarks como MMLU, HumanEval e Chatbot Arena substituíram BLEU/ROUGE como as métricas primárias de comparação. Mas BLEU e ROUGE continuam úteis para tradução e sumarização onde comparação com referência faz sentido.