L'affaire intéressante avec la cohorte actuelle de benchmarks de raisonnement agentique, c'est à quel point ils sont en désaccord sur le niveau réel des modèles. SWE-bench Verified a les systèmes frontaliers au-dessus de 80 %, ce qui sonne comme réglé. OSWorld, qui mesure l'utilisation d'ordinateur entre applications, les a à 12,24 % contre une baseline humaine de 72,36 % — fondamentalement une autre planète. ARC-AGI-1 est saturé à 90 %+, ARC-AGI-3 a la frontière sous 1 % en mars 2026. τ-bench montre moins de 50 % de succès en essai unique pis une cohérence pass^k sous 25 %. Les scores, c'est pas du bruit ; ils mesurent des affaires différentes, pis l'écart entre le benchmark le plus flatteur pis le plus honnête, c'est ça la vraie histoire maintenant.
La mise en garde méthodologique que tout le monde qui publie des scores devrait être obligé de répéter : les résultats d'agents dépendent du scaffold. Le modèle, c'est une variable. Le design du prompt, l'accès aux outils, le budget de retry, l'environnement d'exécution pis la version de l'évaluateur, c'est toutes les autres variables. Un score SWE-bench Verified d'Anthropic qui roule son propre scaffold pis un score SWE-bench Verified d'un évaluateur tiers sur le même modèle peuvent différer en dizaines. Quand un vendeur cite 80 %, la bonne question suivante c'est « avec quel scaffold, quel stack d'outils pis quelle politique de retry » — pas « parfait, ship-le ». L'équipe Sierra τ-bench a fait la version la plus forte de ce point en introduisant pass^k, qui mesure si l'agent réussit k fois de suite sur la même tâche. La chute de pass@1 à pass^8 est brutale sur tous les modèles, pis c'est ça l'écart de fiabilité que les déploiements en production frappent vraiment.
OSWorld, c'est le benchmark qui expose le plus clairement où vit l'écart entre les démos pis le déploiement. Un humain a 72 % sur les tâches GUI multi-applications. Le meilleur modèle frontalier a 12 %. C'est pas un benchmark qui a besoin de questions plus dures ; c'est une classe de modèles qui sait pas encore opérer un ordinateur comme une personne. La plupart des autres benchmarks agentiques roulent dans des environnements texte-seulement ou API-seulement où l'agent peut appeler des outils propres — OSWorld le force à cliquer sur des boutons, changer de fenêtre, gérer ce que l'OS lui renvoie. Les 60 points d'écart, c'est le bon chiffre à punaiser au mur quand quelqu'un te montre une démo léchée d'un « assistant IA qui utilise ton ordinateur ». Les démos sont scriptées. OSWorld, non.
Pour les développeurs, la lecture pratique ressemble à ça : SWE-bench Verified pour la spécialisation code-repair, τ-bench pour la fiabilité en essais répétés, OSWorld pour l'ancrage en utilisation d'ordinateur, GAIA pour le raisonnement web multi-étapes, ARC-AGI-2 pour le raisonnement visuel nouveau, WebArena pour la navigation, AgentBench pour la largeur cross-environnement. Aucun est suffisant tout seul. Aucun mesure le coût par tâche, la sécurité sous entrée adversariale, ou le raisonnement multimodal au-delà de la vision — c'est les trous que le champ a pas encore comblés. Choisis les deux ou trois qui matchent ton produit réel, fais rouler ton propre scaffold sur l'éval publique, pis traite les chiffres marketing des vendeurs comme du marketing jusqu'à ce que tu les reproduises. Le tableau, c'est plus utile comme carte de ce que personne a encore résolu que comme tour d'honneur pour ce qui a été annoncé.
