Le 23 février, l'équipe Frontier Evals d'OpenAI a publié un post expliquant pourquoi elle avait cessé de rapporter les scores SWE-bench Verified. L'audit a trouvé que 59,4 % des cas de test les plus durs du benchmark ont des défauts fondamentaux — des tests qui demandent des noms de fonction exacts non mentionnés dans les énoncés du problème, ou qui vérifient un comportement non relié. Plus accablant : chaque modèle frontière majeur testé — GPT-5.2, Claude Opus 4.5, Gemini 3 Flash — pouvait reproduire les solutions gold-patch verbatim de mémoire en utilisant seulement le task ID. La conclusion d'OpenAI était directe : « Les améliorations sur SWE-bench Verified ne reflètent plus des améliorations significatives dans les capacités de développement logiciel des modèles dans le monde réel ». Ils recommandent SWE-bench Pro à la place. Trois mois plus tard, le reste de l'industrie des agents de code se classe encore sur le bench contaminé.
Les chiffres haut-de-table actuellement publiés c'est : Claude Code sur Opus 4.7 à 87,6 %, OpenAI Codex sur GPT-5.5 à environ 88,7 % (tracker tiers ; OpenAI lui-même ne s'auto-rapporte pas), Gemini CLI à 80,6 %, OpenHands à 72 %, Augment Code à 70,6 % auto-rapporté sur son propre harness, Cursor autour de 51,7 % en défauts, GitHub Copilot autour de 56 %. Sur SWE-bench Pro — l'alternative qu'OpenAI recommande maintenant — les mêmes modèles s'assoient beaucoup plus bas : Claude Opus 4.7 à 64,3 %, GPT-5.5 à 58,6 %. Terminal-Bench 2.0 c'est l'autre benchmark qui est resté crédible : Codex à 82,7 %, Claude Code à 69,4 %, Gemini CLI à 68,5 %. L'écart entre les deux familles de benchmarks c'est en soi le signal : quand les scores d'un eval compressent les modèles contre le plafond et qu'un autre eval écarte les scores, le deuxième fait le travail de discrimination.
Le problème plus profond c'est l'écart entre le benchmark-maximisant et le productivity-maximisant. Le scaffolding d'agent seul produit environ ±17 problèmes de variance sur les mêmes modèles, ce qui veut dire que les choix de harness peuvent dominer le choix de modèle sur n'importe quel run donné. Aucun des classements publics ne vient avec une spécification de harness publiée, donc les comparaisons apples-to-apples à travers les vendors ne sont pas vraiment roulées — seulement apples-vs-les-chiffres-propres-de-chaque-vendor. L'implication pratique pour les builders c'est que la bonne comparaison n'est pas « quel agent mène SWE-bench Verified » mais « quel agent résout mes tâches sur ma codebase avec mon CI et mes conventions de style ». La méthode empirique qui marche c'est de rouler 50 à 100 tâches de ton vrai backlog contre deux ou trois candidats et mesurer les outcomes plutôt que les scores.
Le pattern de recommandation qui fitte réellement les données c'est une stack en couches plutôt qu'un bet sur un seul outil. Les agents terminaux — Claude Code ou Codex — gagnent leur coût sur les refactors multi-fichiers, les changements architecturaux, et le genre de debugging qui brûlerait autrement l'après-midi d'un ingénieur senior. Les extensions IDE — Cursor ou GitHub Copilot — gagnent les leurs sur les complétions inline, les éditions rapides, et l'assistance ambiante pendant le travail de routine. Les agents open-source — Aider, Cline, OpenHands — gagnent les leurs quand tu veux swap de modèles, éviter le markup de plateforme, ou auditer le comportement d'agent end-to-end. En utiliser plus d'un n'est pas de l'indécision ; c'est la réponse honnête à la spécialisation. Côté benchmark : SWE-bench Verified n'est plus ton ami. SWE-bench Pro, Terminal-Bench 2.0, et ta propre codebase, oui.
