Les scientifiques de Google Research, Flip Korn et Chris Welty, ont développé un cadre de travail qui expose un défaut fondamental dans la construction des benchmarks d'IA : la plupart utilisent trop peu d'évaluateurs humains par élément d'évaluation. Leur recherche sur le « compromis (N,K) » — équilibrant le nombre d'éléments versus les évaluateurs par élément — a révélé que la norme industrielle de 1 à 5 évaluateurs échoue souvent à capturer les désaccords humains naturels, rendant les benchmarks moins reproductibles que ne l'assument les chercheurs.
C'est important parce que l'évaluation d'IA a historiquement favorisé l'étendue plutôt que la profondeur, demandant à plusieurs personnes d'évaluer différents éléments plutôt que d'avoir plusieurs personnes évaluer les mêmes éléments. Le problème devient critique dans les tâches subjectives comme la détection de toxicité, où les perspectives humaines varient naturellement. Quand les benchmarks ignorent ce désaccord en utilisant par défaut le vote à la pluralité, ils créent une fausse impression de vérité absolue qui ne reflète pas la complexité du monde réel. Deux exemples de toxicité peuvent avoir des scores de pluralité identiques mais des niveaux de confiance vastement différents parmi les évaluateurs.
Ce qui est frappant, c'est à quel point peu de recherche a examiné cette question malgré son impact sur la reproductibilité — la capacité pour différentes équipes d'exécuter la même évaluation et d'obtenir des résultats cohérents. Les chercheurs ont développé un simulateur basé sur de vrais ensembles de données de toxicité et de discours haineux pour tester sous stress différentes configurations d'évaluation, fournissant ce qu'ils appellent une « feuille de route » pour des benchmarks plus fiables.
Pour les développeurs qui construisent des systèmes d'IA, cette recherche suggère que vous devriez être sceptiques envers les benchmarks qui ne rapportent pas l'accord inter-évaluateurs ou utilisent une validation humaine minimale. Lors de l'évaluation de modèles sur des tâches subjectives, considérez les intervalles de confiance autour des scores de benchmark, pas seulement les chiffres en titre. Le compromis entre le budget d'annotation et la fiabilité n'est pas juste une préoccupation académique — cela affecte directement si vos comparaisons de modèles signifient quelque chose en production.
