GPT-5.5 Instant d'OpenAI : AIME 2025 81,2, MMMU-Pro 76,0, défaut dans ChatGPT

OpenAI a shippé GPT-5.5 Instant aujourd'hui comme nouveau modèle défaut de ChatGPT, remplaçant GPT-5.3 Instant. Les moves de benchmark sont assez larges pour être flaggés : AIME 2025 monte de 65,4 à 81,2 — un saut de 15,8 points sur un benchmark math held-out conçu pour résister à la contamination — et MMMU-Pro raisonnement multimodal lève de 69,2 à 76,0. Le modèle est sur l'API comme `chat-latest` ; 5.3 reste disponible aux users payants pour une fenêtre de sunset de trois mois. Les détails de pricing, les benchmarks de latence et les notes d'architecture n'ont pas été divulgués dans la couverture de lancement, ce qui met la lecture eval substantive carrément sur les chiffres benchmark publics qu'OpenAI a choisi de mettre en avant.

Le suffixe « Instant » continue la stratégie de tier d'OpenAI depuis la génération GPT-5 : les variantes Instant sont le défaut latency-optimized pour le trafic consumer ChatGPT, avec les variantes Thinking réservées aux workloads de raisonnement délibéré. Que 5.5 Instant soit un backbone fully retrained ou un pass post-training enhanced sur les poids 5.3 n'est pas divulgué — et le saut AIME de 16 points pourrait raisonnablement venir de l'un ou l'autre. AIME 2025 a été sélectionné partiellement parce que les problèmes de test n'ont pas été released avant la plupart des cutoffs de pretraining, donc la contamination est implausible ; ça veut dire que le gain est de la vraie capacité de raisonnement, pas de la mémorisation. Le chiffre MMMU-Pro raconte une histoire similaire côté multimodal : 76,0 ferme le gap vers le territoire GPT-5 Thinking à une fraction du coût de latence. Pour les builders qui ont routé des queries multimodales simples via Gemini 2.5 Flash parce que la vision de GPT-5.3 Instant était le point faible, le calcul shift.

La lecture ecosystem, c'est qu'OpenAI converge le gap Instant-vers-Thinking délibérément. Le split Sonnet 4.5 → Opus d'Anthropic a la même forme mais un delta plus petit ; le Gemini 2.5 Flash vs Pro de Google est plus large. En poussant le défaut Instant à AIME 81 et MMMU-Pro 76, OpenAI fait le cas que tu peux faire tourner le trafic chat consumer sur le tier pas cher sans forcer les users à savoir quel mode choisir. Pour les builders qui shippent des expériences chat sur l'API, l'alias `chat-latest` est le signal pertinent — si tu pinnais à une version de modèle spécifique pour la stabilité, attends-toi à ce que les promotions de modèle défaut continuent à bouger le plancher sous toi, et budgète des re-runs d'eval dans ta cadence de release. Le sunset de trois mois sur 5.3 est le pace standard d'OpenAI ; si ton harness d'eval dépend d'un baseline 5.3 figé, tu as une horloge maintenant.

Move pratique : re-eval tes top prompts de trafic sur `chat-latest` cette semaine. Si tes consumers downstream ont classé GPT-5.3 Instant contre Sonnet 4.5 ou Gemini 2.5 Flash, les nouveaux chiffres pourraient shift ta logique de routing. Les use cases math et multimodaux ont le plus gros lift ; le tool-calling pure-texte et la complétion n'ont pas encore été benchmarkés publiquement, donc teste les tiens. La fenêtre de trois mois pour 5.3 suffit pour faire un rollout contrôlé mais pas pour le différer — démarre la comparaison maintenant, ou tu feras le switch sous pression de deadline avec la dépréciation qui approche. Pour les builders côté consumer ChatGPT (GPTs custom, Apps SDK), le modèle sous-jacent est maintenant plus fort par défaut et ton prompt engineering antérieur pourrait nécessiter un scaffolding plus léger.

GPT-5.5 Instant d'OpenAI : AIME 2025 81,2, MMMU-Pro 76,0, défaut dans ChatGPT

Plus de nouvelles