MIT Tech Review fait surface le benchmark APEX-Agents : les modèles frontière résolvent seulement 33 % des vraies tâches de travail

L'infolettre IA de MIT Technology Review a cadré son texte d'aujourd'hui autour de ce qu'elle a appelé le problème des « lutins-slips » : étape 1 bâtir le modèle, étape 3 transformer l'entreprise, étape 2 surtout du brassage de vent. La preuve concrète derrière le cadrage c'est le benchmark APEX-Agents de Mercor, que Will Douglas Heaven a cité et qui mérite sa propre attention. APEX comprend 480 tâches professionnelles bâties par des experts avec 10 ans et plus chez les top banques d'investissement, firmes de consulting et cabinets de droit corporatif. Les agents travaillent dans 33 « mondes » simulés, chacun un environnement Google Workspace complet avec fils Slack, fichiers Drive, tableurs, et PDFs que le modèle doit réellement naviguer, pas un benchmark API dégarni. Le tableau de classement de la semaine dernière : GPT-5.5 (xhigh) à 37,7 %, GPT-5.4 (xhigh) à 33,3 %, Claude Opus 4.6 à 33,0 %, Gemini 3.1 Pro Preview à 32,0 %. Conclusion de Mercor lui-même : aucun modèle n'est prêt à remplacer un pro de bout en bout. Le cadrage MITTR est plus dur : c'est le point de donnée auquel le récit IA-remplace-le-travail a été allergique.

La réalité technique que le benchmark fait émerger est que les modèles frontière convergent en capacité tout en échouant encore deux tâches de travail réelles sur trois. L'écart de 1,3 point de pourcentage entre les trois labos top est frappant en soi; on est rendu au point où la différenciation labo-à-labo compte moins que le plafond de capacité absolu sur du travail pro multi-étapes. Les tâches qu'APEX mesure ne sont pas des benchmarks jouet comme MMLU ou même SWE-Bench; ce sont des livrables concrets qu'un banquier, avocat ou consultant junior recevrait dans ses deux premières années, encastrés dans le contexte Workspace réel et brouillon où il faut trouver le bon tableur, parser le fil Slack non structuré, croiser le PDF, et produire une sortie qu'un autre pro accepterait. Les modèles excellent dans les sous-étapes de planification et recherche, ce qui colle à la littérature existante, mais échouent sur ce que Mercor appelle les jugements stratégiques : les parties du travail où la réponse dépend de savoir ce que la firme ou le client veut vraiment, qui n'est dans aucun document. C'est cohérent avec une autre étude citée par MITTR, où Anthropic a prédit les probabilités de disruption d'emploi sur base d'analyse de tâches mais a dû reconnaître que ça ne mesure pas ce qui se passe quand l'agent est largué dans un workflow réel avec des collègues réels et un contexte institutionnel réel.

L'implication plus large est inconfortable autant pour la thèse haussière que pour la thèse baissière sur l'IA, ce qui est une raison de prendre la donnée au sérieux. Les haussiers extrapolent des benchmarks de chat et des démos vers « les agents remplacent les travailleurs du savoir d'ici 18 mois »; APEX dit que les agents frontière actuels ne peuvent pas compléter la plupart des tâches d'une journée réelle de banquier junior. Les baissiers extrapolent des échecs actuels vers « toute cette affaire est une bulle »; APEX montre aussi GPT-5.5 sautant de 33,3 à 37,7 en une seule itération, ce qui est un saut de capacité significatif sur des tâches qui résistent au gaming. La lecture honnête est celle que Mercor publie à côté du tableau : les modèles fondationnels s'améliorent régulièrement à ce genre de travail, le taux d'amélioration est réel, et l'écart à la complétion bout-en-bout de niveau pro est aussi réel et ne se ferme pas dans le prochain trimestre. L'appel MITTR pour « moins de devinettes et plus de preuve, de la transparence des fabricants de modèles, de la coordination entre chercheurs et entreprises, de nouvelles façons d'évaluer cette technologie » est essentiellement une demande pour plus de benchmarks style APEX. Présentement il n'y en a pas beaucoup; APEX, OSWorld, TAU-Bench, et une poignée d'autres font le travail porteur que ARC, MMLU et HumanEval faisaient pour la génération précédente.

Pour les bâtisseurs qui livrent des produits agentiques en entreprise, la lecture actionnable est de traiter les scores APEX comme un test de bon sens plutôt qu'une preuve marketing. Si un modèle frontière passe une tâche sur trois dans un environnement équivalent à Workspace, ton agent en prod va ressembler à ça sauf si t'as bâti du gréement spécifique au domaine (vérificateurs, récupération, ensembles d'outils étroits) qui réduit matériellement la surface de tâche. Les labos qui livrent des agents en revendiquant des taux de succès élevés en entreprise rapportent presque toujours sur une distribution de tâches beaucoup plus étroite que ce qu'APEX mesure, et la différence est l'écart que MITTR appelle manquant. Trois suggestions concrètes : premièrement, quand tu évalues des agents en interne, bâtis ta propre version du setup Workspace brouillon, pas un harnais API propre; les différences de performance de 30 à 40 points de pourcentage sont routinières entre les deux. Deuxièmement, conçois ton produit autour du mode d'échec jugement-stratégique : garde des humains dans la boucle sur les parties où la réponse dépend du contexte que l'agent ne peut pas voir, automatise les sous-étapes recherche-et-brouillon où les modèles font effectivement bien. Troisièmement, attends-toi à ce que le tableau de classement continue de monter; planifier ta feuille de route autour d'un score APEX de 60 à 70 % dans 18 mois est plus raisonnable que remplacement-en-2026 ou jamais. La vraie histoire est à l'étape 2, et APEX est ce que le domaine a de plus proche d'une mesure de jusqu'où on est rendu sur cette étape.

MIT Tech Review fait surface le benchmark APEX-Agents : les modèles frontière résolvent seulement 33 % des vraies tâches de travail

Plus de nouvelles