GPT-5.5 lancé à 2× le prix API de GPT-5.4 — Terminal-Bench 2.0 à 82,7 %, mais Claude Opus 4.7 mène encore MCP Atlas

OpenAI a lancé GPT-5.5 le 23 avril, avec l'accès API qui s'est ouvert le 24 avril. Le cadrage : « une nouvelle classe d'intelligence pour le vrai travail pis pour alimenter des agents », conçu pour planifier, utiliser des outils, s'auto-vérifier pis travailler à travers des tâches de manière indépendante. Le modèle, c'est le premier modèle de base ré-entraîné depuis GPT-4.5, co-conçu avec les systèmes rack-scale GB200 pis GB300 NVL72 de NVIDIA. Il est en déploiement chez les utilisateurs Plus, Pro, Business pis Enterprise dans ChatGPT pis Codex. Le prix, c'est ce qu'il faut lire avec attention : GPT-5.5 standard, c'est 5 $ par million de tokens input pis 30 $ par million de tokens output, exactement 2× les tarifs de GPT-5.4. GPT-5.5 Pro, avec du compute parallèle au moment du test, c'est 30 $ input / 180 $ output. La défense d'OpenAI sur le tarif doublé, c'est que GPT-5.5 complète les mêmes tâches Codex avec moins de tokens — le labo de tests indépendant Artificial Analysis a validé que les coûts effectifs atterrissent autour de 20 % plus haut plutôt que 2× plus haut.

Les benchmarks expliquent pourquoi OpenAI est prête à charger le double. Sur Terminal-Bench 2.0 — des workflows en ligne de commande qui demandent de la planification pis de la coordination d'outils dans un environnement sandboxé — GPT-5.5 frappe 82,7 %, contre 75,1 % pour GPT-5.4 pis 69,4 % pour Claude Opus 4.7. Sur SWE-Bench Pro (résolution d'issues GitHub), ça atteint 58,6 %. Sur Expert-SWE — le benchmark interne d'OpenAI sur des tâches avec une médiane de 20 heures de complétion humaine — 73,1 % vs 68,5 % pour GPT-5.4. Le saut le plus marquant, c'est MRCR v2 à un million de tokens, un benchmark de récupération en long contexte, où GPT-5.5 frappe 74,0 % contre 36,6 % pour GPT-5.4 — à peu près un doublement. Les chiffres honnêtes sont aussi dans le tableau : sur MCP Atlas, le benchmark de Scale AI sur l'usage d'outils en Model Context Protocol, Claude Opus 4.7 mène à 79,1 %, pis OpenAI a pas rapporté un score GPT-5.5, laissant la cellule en blanc dans son propre tableau publié. GPT-5.5 Pro mène BrowseComp (navigation web) à 90,1 %.

Trois patterns se connectent. Premièrement, la sortie de GPT-5.5 le 23 avril, c'est la cause du cluster de nouvelles de prix de cette semaine : GitHub a annoncé le passage de Copilot à des AI Credits à l'usage le 28 avril, en citant explicitement les coûts d'inférence qui explosent. Microsoft fait payer ses utilisateurs pour les mêmes tokens qu'OpenAI charge le double. Deuxièmement, les maths de comparaison à 10 millions de tokens output par mois sont concrètes — GPT-5.5 standard, c'est 300 $, Claude Opus 4.7 c'est 250 $, un premium de 20 % qui paye juste si la promesse de GPT-5.5 « moins d'itérations de tâche » tient pour ton workload spécifique. Le chiffre de 20 % d'Artificial Analysis, c'est la moyenne de population, pas la réponse par tâche. Troisièmement, la volonté d'OpenAI de publier un tableau de benchmarks où Claude Opus 4.7 mène MCP Atlas — pis de laisser le score de GPT-5.5 en blanc — c'est la divulgation la plus utile du lancement. Ça signale que sur l'usage d'outils par protocole, Anthropic est encore en avance, pis l'avantage de GPT-5.5 est dans la récupération en long contexte pis les tâches agentiques de bout en bout, pas dans les intégrations MCP spécifiquement.

Pour les builders, trois choses concrètes. Premièrement, switche pas de GPT-5.4 ou Claude Opus 4.7 vers GPT-5.5 sur les maths du marketing. Roule ton workload spécifique sur les deux pendant deux semaines, mesure les tokens-par-tâche-complétée, pis calcule le coût effectif à partir de tes propres chiffres — pas à partir de la moyenne de population de 20 %. Deuxièmement, si ton application s'appuie sur des appels d'outils de style MCP, Claude Opus 4.7 mène encore le benchmark public, pis l'absence silencieuse d'OpenAI sur MCP Atlas, c'est le signal. La convergence MCP qu'on a couverte cette semaine (connecteurs Anthropic, Agents CLI de Google, contexte agent Slack) n'est pas encore un choix réglé en faveur de GPT-5.5. Troisièmement, OpenAI dit que plus de 85 % de ses employés utilisent Codex chaque semaine; attends-toi à ce que la propre surface produit d'OpenAI soit le déployeur le plus agressif de GPT-5.5, ce qui veut dire que les modes de défaillance (le problème de l'attracteur goblin qu'on a couvert hier en est un) vont ressortir là en premier. Surveille ce qu'OpenAI shippe elle-même avant de t'engager.

GPT-5.5 lancé à 2× le prix API de GPT-5.4 — Terminal-Bench 2.0 à 82,7 %, mais Claude Opus 4.7 mène encore MCP Atlas

Plus de nouvelles