OpenAI 於 4 月 23 日發布 GPT-5.5,API 存取於 4 月 24 日開放。官方定調:「面向真實工作與驅動 agent 的新一類智慧」,從底層就被設計為可規劃、呼叫工具、自我校驗,並獨立完成任務。該模型是自 GPT-4.5 之後第一個重新訓練的基礎模型,與 NVIDIA 的 GB200 與 GB300 NVL72 機櫃級系統協同設計。它已開始向 ChatGPT 與 Codex 中的 Plus、Pro、Business、Enterprise 使用者鋪開。需要仔細看的是定價:GPT-5.5 標準版為 5 美元/百萬 input tokens、30 美元/百萬 output tokens,恰好是 GPT-5.4 價位的 2 倍。GPT-5.5 Pro 增加測試時刻的並行計算,價格為 30 美元 input / 180 美元 output。OpenAI 對「翻倍」的辯護是:GPT-5.5 完成同樣的 Codex 任務所用 token 更少 —— 獨立測試機構 Artificial Analysis 已驗證,實際有效成本是約高 20%,而非翻倍。

benchmarks 解釋了 OpenAI 為何願意漲價一倍。在 Terminal-Bench 2.0(在沙箱環境中需要規劃與工具協調的命令列工作流)上,GPT-5.5 拿下 82.7%,而 GPT-5.4 是 75.1%、Claude Opus 4.7 是 69.4%。在 SWE-Bench Pro(GitHub issue 解決)上達到 58.6%。在 Expert-SWE —— OpenAI 的內部基準,任務的人類完成時間中位數為 20 小時 —— 上達到 73.1%,GPT-5.4 是 68.5%。最顯眼的提升出現在 MRCR v2 在 100 萬 token 上的長上下文檢索:GPT-5.5 拿到 74.0%,GPT-5.4 僅 36.6%,幾乎翻倍。誠實的數字也在表裡:在 Scale AI 的 Model Context Protocol 工具呼叫基準 MCP Atlas 上,Claude Opus 4.7 以 79.1% 領跑,而 OpenAI 沒有報告 GPT-5.5 的成績,在自己公布的表格中那一格留了空白。GPT-5.5 Pro 在 BrowseComp(網頁瀏覽)上以 90.1% 領跑。

三條線索串到一起。第一,GPT-5.5 在 4 月 23 日的發布,正是本週價格新聞聚集的因:GitHub 在 4 月 28 日宣布 Copilot 轉向按用量計費的 AI Credits,直接點名「飆升的推論成本」。微軟讓其使用者為同一批 token 付費,而 OpenAI 把這些 token 標價翻了倍。第二,以每月 1000 萬 output token 來對比,數字是具體的 —— GPT-5.5 標準版 300 美元,Claude Opus 4.7 250 美元,20% 的溢價僅在 GPT-5.5「更少任務迭代」的承諾對你的具體 workload 成立時才划算。Artificial Analysis 給出的 20%,是總體平均值,不是逐任務的答案。第三,OpenAI 願意公布一張讓 Claude Opus 4.7 在 MCP Atlas 上領跑的基準表 —— 並把 GPT-5.5 的成績留空 —— 是這次發布最有價值的揭露:它表明在「按協議呼叫工具」這一向上,Anthropic 依然領先,而 GPT-5.5 的優勢在於長上下文檢索與端到端agentic 任務,並不在 MCP 整合本身。

對 builders 而言,三件具體事情。第一,不要因為行銷數字就從 GPT-5.4 或 Claude Opus 4.7 切到 GPT-5.5。把你自己的具體 workload 拿到兩邊各跑兩週,測「每完成一項任務的token 數」,再用你自己的數字計算實際成本 —— 而不是用總體平均的 20%。第二,如果你的應用依賴 MCP 風格的工具呼叫,Claude Opus 4.7 仍在公開基準上領跑,而 OpenAI 在 MCP Atlas 上的「沉默缺席」就是訊號。我們這週一直在寫的 MCP 收斂(Anthropic 連接器、Google Agents CLI、Slack agent context)還沒有變成「明確轉向 GPT-5.5」的選擇。第三,OpenAI 表示其 85% 以上的員工每週在使用 Codex;可以預見 OpenAI 自家產品就是 GPT-5.5 最激進的部署面 —— 也就意味著失敗模式(我們昨天寫過的 goblin 吸引子問題就是其一)會先在那裡冒頭。在你押注之前,先看 OpenAI 自己怎麼 ship。