GPT-5.5 GPT-5.4 की API क़ीमत के 2× पर लॉन्च — Terminal-Bench 2.0 पर 82.7%, पर Claude Opus 4.7 अब भी MCP Atlas पर आगे

OpenAI ने 23 अप्रैल को GPT-5.5 लॉन्च किया, और API access 24 अप्रैल को खुला। framing: "असली काम और agents को powering करने के लिए एक नई श्रेणी की intelligence," planning, tools चलाने, output ख़ुद जाँचने, और कार्यों को स्वतंत्र रूप से पूरा करने के लिए डिज़ाइन किया गया। यह GPT-4.5 के बाद पहला retrained base model है, NVIDIA के GB200 और GB300 NVL72 rack-scale systems के साथ co-designed। ChatGPT और Codex में Plus, Pro, Business, और Enterprise users पर deploy हो रहा है। ध्यान से पढ़ने वाला हिस्सा pricing है: GPT-5.5 standard US$5 प्रति मिलियन input tokens और US$30 प्रति मिलियन output tokens है, ठीक GPT-5.4 की दरों का 2×। GPT-5.5 Pro, अतिरिक्त parallel test-time compute के साथ, US$30 input / US$180 output है। दोगुनी दर का OpenAI का बचाव यह है कि GPT-5.5 वही Codex tasks कम tokens में पूरा करता है — स्वतंत्र testing lab Artificial Analysis ने पुष्टि की कि असली लागत 2× के बजाय लगभग 20% अधिक होती है।

Benchmarks बताते हैं कि OpenAI दोगुना क्यों charge कर रहा है। Terminal-Bench 2.0 पर — sandboxed environment में planning और tool coordination मांगते command-line workflows — GPT-5.5 82.7% मारता है, GPT-5.4 के 75.1% और Claude Opus 4.7 के 69.4% के मुक़ाबले। SWE-Bench Pro (GitHub issue resolution) पर 58.6% तक पहुंचता है। Expert-SWE — OpenAI का internal benchmark, जिसमें tasks का median human completion time 20 घंटे होता है — पर 73.1% (GPT-5.4 का 68.5%)। सबसे बड़ी छलांग MRCR v2 पर एक मिलियन tokens पर है, एक long-context retrieval benchmark, जहां GPT-5.5 74.0% मारता है, GPT-5.4 के 36.6% के विपरीत — लगभग दोगुना। ईमानदार नंबर भी table में हैं: Scale AI के Model Context Protocol tool-use benchmark MCP Atlas पर, Claude Opus 4.7 79.1% पर आगे है और OpenAI ने GPT-5.5 का score नहीं बताया, अपनी प्रकाशित table में वह सेल खाली छोड़ दी। GPT-5.5 Pro BrowseComp (web-browsing) पर 90.1% पर आगे।

तीन pattern जुड़ते हैं। पहला, GPT-5.5 का 23 अप्रैल को लॉन्च होना ही इस सप्ताह की pricing-cluster ख़बरों का कारण है: GitHub ने 28 अप्रैल को Copilot के usage-based AI Credits में बदलाव की घोषणा की, स्पष्ट रूप से बढ़ती inference लागतों का हवाला देते हुए। Microsoft अपने users से उन्हीं tokens के लिए भुगतान करवा रहा है जिनके लिए OpenAI दोगुनी क़ीमत ले रहा है। दूसरा, प्रति महीने 10 मिलियन output tokens पर तुलना का गणित ठोस है — GPT-5.5 standard US$300, Claude Opus 4.7 US$250, 20% premium जो केवल तब चुकता है जब GPT-5.5 का "कम task iterations" का दावा आपके specific workload के लिए सच हो। Artificial Analysis का 20% आंकड़ा population औसत है, per-task उत्तर नहीं। तीसरा, OpenAI का एक benchmark table प्रकाशित करने को तैयार होना जहां Claude Opus 4.7 MCP Atlas पर आगे है — और GPT-5.5 का score खाली छोड़ देना — launch का सबसे उपयोगी ख़ुलासा है। यह संकेत देता है कि protocol-tool-use पर Anthropic अब भी आगे है, और GPT-5.5 की बढ़त long-context retrieval और end-to-end agentic tasks में है, MCP integrations में विशेष रूप से नहीं।

Builders के लिए, तीन ठोस बातें। पहला, marketing के गणित पर GPT-5.4 या Claude Opus 4.7 से GPT-5.5 पर स्विच न करें। अपना specific workload दोनों पर दो हफ़्तों तक चलाएं, tokens-per-completed-task मापें, और अपने ख़ुद के numbers से असली लागत निकालें — 20% के population औसत से नहीं। दूसरा, अगर आपकी application MCP-style tool calling पर निर्भर है, तो Claude Opus 4.7 अभी भी public benchmark पर अग्रणी है और MCP Atlas पर OpenAI की मौन अनुपस्थिति ही संकेत है। हम इस सप्ताह जिस MCP convergence को कवर कर रहे हैं (Anthropic connectors, Google Agents CLI, Slack agent context) वह अभी GPT-5.5 के पक्ष में निर्णीत विकल्प नहीं है। तीसरा, OpenAI कहती है कि उसके 85% से ज़्यादा कर्मचारी साप्ताहिक Codex उपयोग करते हैं; अपेक्षा रखें कि OpenAI की अपनी product surface ही GPT-5.5 का सबसे आक्रामक deployer होगी, जिसका मतलब है कि failure modes (जिसमें कल हमने जो goblin-attractor समस्या cover की वह एक है) वहां सबसे पहले सामने आएंगे। commit करने से पहले देखें कि OpenAI ख़ुद क्या ship करता है।

GPT-5.5 GPT-5.4 की API क़ीमत के 2× पर लॉन्च — Terminal-Bench 2.0 पर 82.7%, पर Claude Opus 4.7 अब भी MCP Atlas पर आगे

और समाचार