Benchmarks clés : MMLU (Massive Multitask Language Understanding) — 14 042 questions à choix multiples dans 57 matières des STIM aux sciences humaines. HumanEval — 164 problèmes de codage testant la génération de fonctions en Python. ARC (AI2 Reasoning Challenge) — questions d'examens de sciences nécessitant du raisonnement. HellaSwag — complétion de phrases testant les connaissances de bon sens. GSM8K — 8 500 problèmes de mathématiques de niveau primaire. Chacun teste une capacité différente.
Plusieurs enjeux : la contamination (les questions de test apparaissent dans les données d'entraînement, gonflant les scores), la saturation (quand tous les modèles obtiennent 95 %+, le benchmark cesse de discriminer), le gaming (entraîner spécifiquement pour maximiser les scores de benchmark sans véritablement améliorer les capacités), et la couverture étroite (les benchmarks testent ce qui est testable, pas nécessairement ce qui compte pour les utilisateurs). Un modèle qui obtient 90 % sur MMLU pourrait être pire pour aider un utilisateur qu'un modèle à 80 % qui suit mieux les instructions.
Le domaine évolue : Chatbot Arena utilise les préférences humaines en temps réel (difficile à contaminer, toujours actuel). LiveBench utilise des questions fréquemment renouvelées. SEAL et d'autres benchmarks privés gardent les données de test secrètes. Des évaluations spécifiques aux tâches (SWE-bench pour la résolution de vrais problèmes GitHub, GPQA pour les sciences au niveau doctorat) testent des capacités que les benchmarks généraux manquent. La tendance est vers une évaluation qui ressemble plus à l'usage réel et moins aux examens standardisés.