La plupart des benchmarks d'IA suivent une formule simple : soumettre au modèle un ensemble de questions ou de tâches dont les réponses correctes sont connues, exécuter l'inférence et calculer un score de précision. MMLU, par exemple, est essentiellement un examen à choix multiples couvrant 57 matières, de l'algèbre abstraite aux religions du monde. HumanEval demande au modèle d'écrire des fonctions Python qui passent des tests unitaires. GSM8K présente des problèmes mathématiques de niveau primaire. Le score du benchmark est le pourcentage de bonnes réponses, parfois pondéré, parfois ventilé par catégorie. En coulisses, de nombreux benchmarks évaluent les modèles en mode zero-shot ou few-shot — le modèle ne reçoit aucun exemple, ou seulement quelques-uns, avant de répondre. L'objectif est de mesurer une capacité réelle plutôt qu'une simple reconnaissance de format.
L'histoire des benchmarks en IA est celle d'objectifs qui bougent plus vite que prévu. GLUE, lancé en 2018, était censé être un test exigeant de compréhension du langage. Les modèles ont dépassé les performances humaines en moins d'un an, et SuperGLUE est arrivé en 2019. Celui-ci est tombé aussi. MMLU (2020) était conçu pour durer plus longtemps, et ce fut le cas — un temps. Fin 2024, les modèles de pointe obtenaient plus de 90 %, et la communauté était déjà passée à des tests plus difficiles comme MMLU-Pro et GPQA (un ensemble de questions de niveau doctoral en sciences, où même les experts du domaine peinent). Ce cycle de création-saturation-remplacement est l'un des schémas récurrents de la recherche moderne en IA.
Le plus grand piège des benchmarks est la contamination. Si les questions du benchmark apparaissent dans les données d'entraînement — ce qui est presque inévitable quand on entraîne sur la majeure partie d'Internet — le modèle pourrait rappeler des réponses plutôt que raisonner. Certaines équipes vont plus loin, en optimisant délibérément ou accidentellement pour des benchmarks spécifiques pendant l'entraînement, une pratique parfois appelée « enseigner pour l'examen ». C'est pourquoi on voit parfois un modèle avec des scores MMLU impressionnants produire des résultats médiocres en conversation réelle. Des projets comme Chatbot Arena adoptent une approche radicalement différente : de vrais utilisateurs discutent avec deux modèles anonymes et votent pour la meilleure réponse. Pas de questions fixes, pas de réponses connues — juste la préférence humaine sur des tâches réelles. La corrélation avec les benchmarks traditionnels est étonnamment faible pour certains modèles, ce qui en dit long sur ce que ces benchmarks mesurent réellement.
Il y a aussi un problème plus subtil : les benchmarks mesurent ce qui est facile à mesurer, pas nécessairement ce qui compte. Le rappel factuel et le raisonnement à choix multiples sont simples à noter automatiquement. Des qualités comme l'utilité, la nuance, savoir quand dire « je ne sais pas » et maintenir la cohérence au fil d'une longue conversation sont beaucoup plus difficiles à quantifier. C'est pourquoi les praticiens sérieux examinent un panier de benchmarks en complément de tests qualitatifs sur leurs propres cas d'usage. Un modèle qui obtient 2 % de moins sur MMLU mais qui gère nettement mieux votre domaine spécifique est le meilleur modèle — pour vous. Les chiffres sont un point de départ pour la comparaison, pas un verdict final.