Zubnet AIAprenderWiki › Benchmarks de IA
Fundamentos

Benchmarks de IA

Também conhecido como: MMLU, HumanEval, ARC, HellaSwag
Testes padronizados usados para medir e comparar capacidades de modelos de IA. MMLU testa conhecimento em 57 matérias acadêmicas. HumanEval testa geração de código. ARC testa raciocínio científico. HellaSwag testa raciocínio de senso comum. GSM8K testa matemática. Scores de benchmarks fornecem uma linguagem comum para comparar modelos, embora tenham limitações significativas.

Por que isso importa

Benchmarks são como a indústria mantém o placar. Quando a Anthropic diz que Claude pontua X% no MMLU e Y% no HumanEval, esses números só significam algo se você souber o que os benchmarks testam, como são pontuados e quais são suas limitações. Entender benchmarks ajuda a filtrar alegações de marketing e avaliar qual modelo é realmente melhor para seu caso de uso específico.

Em profundidade

Principais benchmarks: MMLU (Massive Multitask Language Understanding) — 14.042 questões de múltipla escolha em 57 matérias de STEM a humanidades. HumanEval — 164 problemas de programação testando geração de funções em Python. ARC (AI2 Reasoning Challenge) — questões de exames de ciências que requerem raciocínio. HellaSwag — completação de frases testando conhecimento de senso comum. GSM8K — 8.500 problemas de matemática de nível fundamental. Cada um testa uma capacidade diferente.

Por Que Benchmarks São Problemáticos

Vários problemas: contaminação (questões de teste aparecem nos dados de treinamento, inflando scores), saturação (quando todos os modelos pontuam 95%+, o benchmark para de discriminar), gaming (treinar especificamente para maximizar scores de benchmark sem genuinamente melhorar capacidade) e cobertura limitada (benchmarks testam o que é testável, não necessariamente o que importa para usuários). Um modelo que pontua 90% no MMLU pode ser pior em realmente ajudar um usuário do que um que pontua 80% mas segue instruções melhor.

A Mudança Para Além de Benchmarks Estáticos

O campo está evoluindo: Chatbot Arena usa preferências humanas em tempo real (difícil de contaminar, sempre atual). LiveBench usa questões atualizadas frequentemente. SEAL e outros benchmarks privados mantêm dados de teste secretos. Avaliações específicas de tarefa (SWE-bench para resolver issues reais do GitHub, GPQA para ciência de nível de doutorado) testam capacidades que benchmarks gerais não capturam. A tendência é em direção a avaliação que se parece mais com uso real e menos com testes padronizados.

Conceitos relacionados

← Todos os termos
← Benchmark BERT →