OpenAI ने GPT-5.4 के एक हफ्ते बाद GPT-5.5 ('Spud') भेजा: Terminal-Bench 2.0 पर 82.7% जो Mythos Preview से थोड़ा आगे, Expert-SWE पर 73.1%, GPT-5.4 की latency को कम tokens के साथ match करता है

OpenAI ने आज GPT-5.5 भेजा, GPT-5.4 के सात दिन बाद — 5-series में कंपनी की अब तक की सबसे तेज़ release cadence। Greg Brockman ने इसे "superapp" thesis की ओर एक कदम के रूप में framed किया जो OpenAI पिछली तिमाही से संकेत दे रहा है, और VP Research Amelia Glaese ने इसे "coding में अब तक का हमारा सबसे मजबूत model" कहा। Model तुरंत ChatGPT Plus, Pro, Business, और Enterprise पर भेजा जाता है, GPT-5.5 Pro शीर्ष तीन tiers पर जाता है। Axios रिपोर्ट करता है कि internal codename "Spud" है।

मुख्य संख्याएं Terminal-Bench 2.0 पर 82.7% (GPT-5.4 के 75.1% से ऊपर) और internal coding eval Expert-SWE पर 73.1% (68.5% से ऊपर) हैं। VentureBeat की framing ने सबसे दिलचस्प तुलना पकड़ी: विशेष रूप से Terminal-Bench 2.0 पर, GPT-5.5 Anthropic के Mythos Preview को थोड़ा हरा देता है। यह उल्लेखनीय है क्योंकि Mythos वह restricted research-preview model है जिसे Anthropic ने generally available नहीं बनाया; GPT-5.5 आज ChatGPT users को भेजा जा रहा है। Serving economics के लिए वास्तव में मायने रखने वाला व्यावहारिक दावा OpenAI के release notes में है: GPT-5.5 GPT-5.4 की per-token latency से मेल खाता है जबकि tasks को कम tokens के साथ पूरा करता है। अगर यह production workloads पर टिकता है, यह उसी throughput ceiling पर cost-per-completion में प्रत्यक्ष सुधार है।

Cadence ही pattern है। GPT-5.4 16 अप्रैल को भेजा गया — उसी दिन जब Anthropic का Opus 4.7 generally available हुआ। GPT-5.5 23 अप्रैल है, एक हफ्ते बाद, Mythos को एक benchmark पर थोड़ा हरा रहा है जो स्वयं generally available नहीं है। Model-release tempo जो महीनों में हुआ करता था अब हफ्तों में है, और हर release चुनिंदा benchmarks के साथ उतरती है जो सबसे हाल में release करने वाले प्रतिस्पर्धी के विरुद्ध position करते हैं। जो कोई भी OpenAI पर build कर रहा है, उसके लिए velocity दो तरीकों से काटती है: नई क्षमताएं तेज़ी से आती हैं, और जिस model के विरुद्ध आपने दो हफ्ते पहले build किया वह आपके users के मारने पर default विकल्प नहीं रह सकता।

Builders के लिए तीन ठोस नोट्स। एक, अगर आप ChatGPT या API पर agentic workflows भेजते हैं, per-token efficiency claim वह lever है जिसे पहले अपनी workload के विरुद्ध test करना चाहिए; Terminal-Bench 2.0 और Expert-SWE आपकी workload नहीं हैं। दो, OpenAI के release में "end-to-end coding और tool use" framing (code लिखना और debug करना, online research, data analyze करना, documents और spreadsheets बनाना, software operate करना, task पूरा होने तक tools के बीच बढ़ना) Claude Code/Gemini CLI/Cursor feature surface की ओर convergence से मेल खाता है जिसे हम पूरे महीने track कर रहे हैं। तीन, versioning discipline अब ज़्यादा मायने रखती है। GPT-5.4 से GPT-5.5 सात दिन का delta है। जिस model string पर आप निर्भर हैं उसे pin करें।

OpenAI ने GPT-5.4 के एक हफ्ते बाद GPT-5.5 ('Spud') भेजा: Terminal-Bench 2.0 पर 82.7% जो Mythos Preview से थोड़ा आगे, Expert-SWE पर 73.1%, GPT-5.4 की latency को कम tokens के साथ match करता है

और समाचार