A maioria dos benchmarks de IA segue uma fórmula simples: dê ao modelo um conjunto de perguntas ou tarefas com respostas corretas conhecidas, rode a inferência e compute uma pontuação de acurácia. O MMLU, por exemplo, é essencialmente uma prova de múltipla escolha abrangendo 57 disciplinas, de álgebra abstrata a religiões do mundo. O HumanEval pede ao modelo para escrever funções Python que passem em testes unitários. O GSM8K apresenta problemas de matemática com enunciados de nível escolar. A pontuação do benchmark é a porcentagem que o modelo acerta, às vezes ponderada, às vezes detalhada por categoria. Por baixo dos panos, muitos benchmarks avaliam modelos em configuração zero-shot ou few-shot — significando que o modelo não recebe exemplos, ou apenas alguns, antes de responder. Isso deveria medir capacidade genuína em vez de reconhecimento de padrões em um formato específico.
A história dos benchmarks em IA é uma história de metas se movendo mais rápido do que qualquer um esperava. O GLUE, lançado em 2018, deveria ser um teste difícil de compreensão de linguagem. Modelos superaram baselines humanas em um ano, então o SuperGLUE chegou em 2019. Esse também caiu. O MMLU (2020) foi projetado para durar mais, e durou — por um tempo. No final de 2024, modelos de fronteira estavam pontuando acima de 90% nele, e a comunidade já havia migrado para testes mais difíceis como MMLU-Pro e GPQA (um conjunto de questões de ciência em nível de doutorado onde até especialistas do domínio têm dificuldade). Esse ciclo de criar-saturar-substituir é um dos padrões definidores da pesquisa moderna em IA.
O maior problema com benchmarks é a contaminação. Se as perguntas do benchmark aparecem nos dados de treinamento — o que é quase inevitável quando você treina com a maior parte da internet — o modelo pode estar recordando respostas em vez de raciocinando. Algumas equipes vão além, deliberada ou acidentalmente otimizando para benchmarks específicos durante o treinamento, uma prática às vezes chamada de "ensinar para o teste". É por isso que às vezes você vê um modelo com pontuações impressionantes no MMLU produzir resultados medíocres em conversas reais. Projetos como o Chatbot Arena adotam uma abordagem completamente diferente: usuários reais conversam com dois modelos anônimos e votam em qual resposta é melhor. Sem perguntas fixas, sem respostas conhecidas — apenas preferência humana em tarefas reais. Isso correlaciona surpreendentemente mal com benchmarks tradicionais para alguns modelos, o que diz algo importante sobre o que esses benchmarks estão realmente medindo.
Há também um problema mais sutil: benchmarks medem o que é fácil de medir, não necessariamente o que importa. Recall factual e raciocínio de múltipla escolha são diretos de pontuar automaticamente. Qualidades como utilidade, nuance, saber quando dizer "eu não sei" e manter coerência ao longo de uma conversa longa são muito mais difíceis de quantificar. É por isso que praticantes sérios olham para um conjunto de benchmarks junto com testes qualitativos em seus próprios casos de uso. Um modelo que pontua 2% a menos no MMLU mas lida com seu domínio específico notavelmente melhor é o melhor modelo — para você. Os números são um ponto de partida para comparação, não um veredicto final.