Os cientistas do Google Research, Flip Korn e Chris Welty, desenvolveram um framework que expõe uma falha fundamental em como benchmarks de IA são construídos: a maioria usa poucos avaliadores humanos demais por item de avaliação. Sua pesquisa sobre o "trade-off (N,K)" —balanceando o número de itens versus avaliadores por item— descobriu que o padrão da indústria de 1-5 avaliadores frequentemente falha em capturar desacordo humano natural, tornando benchmarks menos reproduzíveis do que pesquisadores assumem.
Isso importa porque avaliação de IA historicamente favoreceu amplitude sobre profundidade, pedindo para muitas pessoas avaliarem itens diferentes ao invés de ter múltiplas pessoas avaliando os mesmos itens. O problema se torna crítico em tarefas subjetivas como detecção de toxicidade, onde perspectivas humanas naturalmente variam. Quando benchmarks ignoram esse desacordo usando votação por pluralidade como padrão, eles criam uma falsa sensação de verdade absoluta que não reflete complexidade do mundo real. Dois exemplos de toxicidade podem ter pontuações de pluralidade idênticas mas níveis de confiança vastamente diferentes entre avaliadores.
O que é impressionante é quão pouca pesquisa examinou essa questão apesar de seu impacto na reprodutibilidade —a habilidade para diferentes equipes executarem a mesma avaliação e obterem resultados consistentes. Os pesquisadores desenvolveram um simulador baseado em datasets reais de toxicidade e discurso de ódio para testar sob estresse diferentes configurações de avaliação, fornecendo o que eles chamam de um "roteiro" para benchmarks mais confiáveis.
Para desenvolvedores construindo sistemas de IA, essa pesquisa sugere que vocês deveriam ser céticos com benchmarks que não reportam concordância inter-avaliadores ou usam validação humana mínima. Ao avaliar modelos em tarefas subjetivas, considerem os intervalos de confiança ao redor de pontuações de benchmark, não apenas os números principais. O trade-off entre orçamento de anotação e confiabilidade não é apenas uma preocupação acadêmica —afeta diretamente se suas comparações de modelos significam alguma coisa em produção.
