BLEU & ROUGE: Definição e significado — Wiki de IA

Métricas clássicas para avaliar a qualidade de geração de texto comparando a saída do modelo com textos de referência. BLEU (Bilingual Evaluation Understudy) mede quantos n-grams no texto gerado aparecem na referência — originalmente projetado para tradução automática. ROUGE (Recall-Oriented Understudy for Gisting Evaluation) mede quantos n-grams da referência aparecem no texto gerado — projetado para sumarização.

Por que isso importa

BLEU e ROUGE foram as métricas padrão de avaliação para NLP por mais de uma década e ainda são amplamente usadas. Entendê-las — e suas limitações — ajuda você a avaliar alegações de pesquisa em NLP e entender por que o campo está migrando para avaliação humana e avaliação baseada em modelos. Um score BLEU alto não garante qualidade; um score BLEU baixo não garante fracasso.

Em profundidade

BLEU computa precisão: que fração dos n-grams (1-grams, 2-grams, 3-grams, 4-grams) no texto gerado também aparecem na referência? ROUGE computa recall: que fração dos n-grams na referência também aparecem no texto gerado? BLEU penaliza saídas que são muito curtas (penalidade de brevidade). ROUGE-L usa a subsequência comum mais longa em vez de n-grams fixos, capturando a ordem das palavras de forma mais flexível.

Por Que São Falhas

Ambas as métricas recompensam similaridade superficial com referências. Uma paráfrase perfeita pontua mal (palavras diferentes, mesmo significado). Um texto repetitivo e sem sentido que por acaso reutiliza n-grams de referência pode pontuar bem. Elas também requerem textos de referência, o que as limita a tarefas onde respostas "corretas" existem. Para geração aberta (escrita criativa, conversa), não há uma única referência correta para comparar.

Alternativas Modernas

O campo avançou para: BERTScore (usa similaridade de embeddings em vez de correspondência de n-grams, captura paráfrases melhor), avaliação baseada em modelo (usar um LLM para julgar qualidade de saída) e avaliação humana (o padrão ouro, mas caro). Para avaliação de LLMs especificamente, benchmarks como MMLU, HumanEval e Chatbot Arena substituíram BLEU/ROUGE como as métricas primárias de comparação. Mas BLEU e ROUGE continuam úteis para tradução e sumarização onde comparação com referência faz sentido.

BLEU & ROUGE

Por que isso importa

Em profundidade

Por Que São Falhas

Alternativas Modernas

Conceitos relacionados