Benchmark: Definição e significado — Wiki de IA

Um teste padronizado usado para avaliar e comparar modelos de IA. Benchmarks medem capacidades específicas — raciocínio (ARC), matemática (GSM8K), programação (HumanEval), conhecimento geral (MMLU) — e produzem pontuações que podem ser comparadas entre modelos.

Por que isso importa

Benchmarks são como a indústria mantém o placar, mas são imperfeitos. Modelos podem ser treinados para gabaritar benchmarks sem serem genuinamente melhores. O desempenho no mundo real frequentemente conta uma história diferente. Trate-os como sinais, não como verdade.

Em profundidade

A maioria dos benchmarks de IA segue uma fórmula simples: dê ao modelo um conjunto de perguntas ou tarefas com respostas corretas conhecidas, rode a inferência e compute uma pontuação de acurácia. O MMLU, por exemplo, é essencialmente uma prova de múltipla escolha abrangendo 57 disciplinas, de álgebra abstrata a religiões do mundo. O HumanEval pede ao modelo para escrever funções Python que passem em testes unitários. O GSM8K apresenta problemas de matemática com enunciados de nível escolar. A pontuação do benchmark é a porcentagem que o modelo acerta, às vezes ponderada, às vezes detalhada por categoria. Por baixo dos panos, muitos benchmarks avaliam modelos em configuração zero-shot ou few-shot — significando que o modelo não recebe exemplos, ou apenas alguns, antes de responder. Isso deveria medir capacidade genuína em vez de reconhecimento de padrões em um formato específico.

As Metas Móveis

A história dos benchmarks em IA é uma história de metas se movendo mais rápido do que qualquer um esperava. O GLUE, lançado em 2018, deveria ser um teste difícil de compreensão de linguagem. Modelos superaram baselines humanas em um ano, então o SuperGLUE chegou em 2019. Esse também caiu. O MMLU (2020) foi projetado para durar mais, e durou — por um tempo. No final de 2024, modelos de fronteira estavam pontuando acima de 90% nele, e a comunidade já havia migrado para testes mais difíceis como MMLU-Pro e GPQA (um conjunto de questões de ciência em nível de doutorado onde até especialistas do domínio têm dificuldade). Esse ciclo de criar-saturar-substituir é um dos padrões definidores da pesquisa moderna em IA.

O Problema da Contaminação

O maior problema com benchmarks é a contaminação. Se as perguntas do benchmark aparecem nos dados de treinamento — o que é quase inevitável quando você treina com a maior parte da internet — o modelo pode estar recordando respostas em vez de raciocinando. Algumas equipes vão além, deliberada ou acidentalmente otimizando para benchmarks específicos durante o treinamento, uma prática às vezes chamada de "ensinar para o teste". É por isso que às vezes você vê um modelo com pontuações impressionantes no MMLU produzir resultados medíocres em conversas reais. Projetos como o Chatbot Arena adotam uma abordagem completamente diferente: usuários reais conversam com dois modelos anônimos e votam em qual resposta é melhor. Sem perguntas fixas, sem respostas conhecidas — apenas preferência humana em tarefas reais. Isso correlaciona surpreendentemente mal com benchmarks tradicionais para alguns modelos, o que diz algo importante sobre o que esses benchmarks estão realmente medindo.

O que os Números Não Capturam

Há também um problema mais sutil: benchmarks medem o que é fácil de medir, não necessariamente o que importa. Recall factual e raciocínio de múltipla escolha são diretos de pontuar automaticamente. Qualidades como utilidade, nuance, saber quando dizer "eu não sei" e manter coerência ao longo de uma conversa longa são muito mais difíceis de quantificar. É por isso que praticantes sérios olham para um conjunto de benchmarks junto com testes qualitativos em seus próprios casos de uso. Um modelo que pontua 2% a menos no MMLU mas lida com seu domínio específico notavelmente melhor é o melhor modelo — para você. Os números são um ponto de partida para comparação, não um veredicto final.

Benchmark

Por que isso importa

Em profundidade

As Metas Móveis

O Problema da Contaminação

O que os Números Não Capturam

Conceitos relacionados