Los científicos de Google Research, Flip Korn y Chris Welty, han desarrollado un framework que expone una falla fundamental en cómo se construyen los benchmarks de IA: la mayoría usa muy pocos evaluadores humanos por elemento de evaluación. Su investigación sobre el "intercambio (N,K)" —balanceando el número de elementos versus evaluadores por elemento— encontró que el estándar de la industria de 1-5 evaluadores a menudo falla en capturar el desacuerdo humano natural, haciendo que los benchmarks sean menos reproducibles de lo que asumen los investigadores.
Esto importa porque la evaluación de IA históricamente ha favorecido la amplitud sobre la profundidad, pidiendo a muchas personas que califiquen elementos diferentes en lugar de tener múltiples personas calificando los mismos elementos. El problema se vuelve crítico en tareas subjetivas como la detección de toxicidad, donde las perspectivas humanas naturalmente varían. Cuando los benchmarks ignoran este desacuerdo usando por defecto votación por pluralidad, crean una falsa sensación de verdad absoluta que no refleja la complejidad del mundo real. Dos ejemplos de toxicidad pueden tener puntajes de pluralidad idénticos pero niveles de confianza vastamente diferentes entre evaluadores.
Lo que es sorprendente es cuán poca investigación ha examinado este problema a pesar de su impacto en la reproducibilidad —la habilidad para que diferentes equipos ejecuten la misma evaluación y obtengan resultados consistentes. Los investigadores desarrollaron un simulador basado en datasets reales de toxicidad y discurso de odio para probar bajo estrés diferentes configuraciones de calificación, proporcionando lo que llaman una "hoja de ruta" para benchmarks más confiables.
Para desarrolladores construyendo sistemas de IA, esta investigación sugiere que deberían ser escépticos de benchmarks que no reportan acuerdo entre evaluadores o usan validación humana mínima. Al evaluar modelos en tareas subjetivas, consideren los intervalos de confianza alrededor de los puntajes de benchmark, no solo los números principales. El intercambio entre presupuesto de anotación y confiabilidad no es solo una preocupación académica —afecta directamente si sus comparaciones de modelos significan algo en producción.
