Principais benchmarks: MMLU (Massive Multitask Language Understanding) — 14.042 questões de múltipla escolha em 57 matérias de STEM a humanidades. HumanEval — 164 problemas de programação testando geração de funções em Python. ARC (AI2 Reasoning Challenge) — questões de exames de ciências que requerem raciocínio. HellaSwag — completação de frases testando conhecimento de senso comum. GSM8K — 8.500 problemas de matemática de nível fundamental. Cada um testa uma capacidade diferente.
Vários problemas: contaminação (questões de teste aparecem nos dados de treinamento, inflando scores), saturação (quando todos os modelos pontuam 95%+, o benchmark para de discriminar), gaming (treinar especificamente para maximizar scores de benchmark sem genuinamente melhorar capacidade) e cobertura limitada (benchmarks testam o que é testável, não necessariamente o que importa para usuários). Um modelo que pontua 90% no MMLU pode ser pior em realmente ajudar um usuário do que um que pontua 80% mas segue instruções melhor.
O campo está evoluindo: Chatbot Arena usa preferências humanas em tempo real (difícil de contaminar, sempre atual). LiveBench usa questões atualizadas frequentemente. SEAL e outros benchmarks privados mantêm dados de teste secretos. Avaliações específicas de tarefa (SWE-bench para resolver issues reais do GitHub, GPQA para ciência de nível de doutorado) testam capacidades que benchmarks gerais não capturam. A tendência é em direção a avaliação que se parece mais com uso real e menos com testes padronizados.