OpenAI 于 4 月 23 日发布 GPT-5.5,API 访问于 4 月 24 日开放。官方定调:「面向真实工作与驱动 agent 的新一类智能」,从底层就被设计为可规划、调用工具、自我校验,并独立完成任务。该模型是自 GPT-4.5 之后第一个重新训练的基础模型,与 NVIDIA 的 GB200 与 GB300 NVL72 机柜级系统协同设计。它已开始向 ChatGPT 与 Codex 中的 Plus、Pro、Business、Enterprise 用户铺开。需要仔细看的是定价:GPT-5.5 标准版为 5 美元/百万 input tokens、30 美元/百万 output tokens,恰好是 GPT-5.4 价位的 2 倍。GPT-5.5 Pro 增加测试时刻的并行计算,价格为 30 美元 input / 180 美元 output。OpenAI 对「翻倍」的辩护是:GPT-5.5 完成同样的 Codex 任务所用 token 更少 —— 独立测试机构 Artificial Analysis 已验证,实际有效成本是约高 20%,而非翻倍。

benchmarks 解释了 OpenAI 为何愿意涨价一倍。在 Terminal-Bench 2.0(在沙盒环境中需要规划与工具协调的命令行工作流)上,GPT-5.5 拿下 82.7%,而 GPT-5.4 是 75.1%、Claude Opus 4.7 是 69.4%。在 SWE-Bench Pro(GitHub issue 解决)上达到 58.6%。在 Expert-SWE —— OpenAI 的内部基准,任务的人类完成时间中位数为 20 小时 —— 上达到 73.1%,GPT-5.4 是 68.5%。最显眼的提升出现在 MRCR v2 在 100 万 token 上的长上下文检索:GPT-5.5 拿到 74.0%,GPT-5.4 仅 36.6%,几乎翻倍。诚实的数字也在表里:在 Scale AI 的 Model Context Protocol 工具调用基准 MCP Atlas 上,Claude Opus 4.7 以 79.1% 领跑,而 OpenAI 没有报告 GPT-5.5 的成绩,在自己公布的表格中那一格留了空白。GPT-5.5 Pro 在 BrowseComp(网页浏览)上以 90.1% 领跑。

三条线索串到一起。第一,GPT-5.5 在 4 月 23 日的发布,正是本周价格新闻聚集的因:GitHub 在 4 月 28 日宣布 Copilot 转向按用量计费的 AI Credits,直接点名「飙升的推理成本」。微软让其用户为同一批 token 付费,而 OpenAI 把这些 token 标价翻了倍。第二,以每月 1000 万 output token 来对比,数字是具体的 —— GPT-5.5 标准版 300 美元,Claude Opus 4.7 250 美元,20% 的溢价仅在 GPT-5.5「更少任务迭代」的承诺对你的具体 workload 成立时才划算。Artificial Analysis 给出的 20%,是总体平均值,不是逐任务的答案。第三,OpenAI 愿意公布一张让 Claude Opus 4.7 在 MCP Atlas 上领跑的基准表 —— 并把 GPT-5.5 的成绩留空 —— 是这次发布最有价值的披露:它表明在「按协议调用工具」这一向上,Anthropic 依然领先,而 GPT-5.5 的优势在于长上下文检索与端到端agentic 任务,并不在 MCP 集成本身。

对 builders 而言,三件具体事情。第一,不要因为营销数字就从 GPT-5.4 或 Claude Opus 4.7 切到 GPT-5.5。把你自己的具体 workload 拿到两边各跑两周,测「每完成一项任务的token 数」,再用你自己的数字计算实际成本 —— 而不是用总体平均的 20%。第二,如果你的应用依赖 MCP 风格的工具调用,Claude Opus 4.7 仍在公开基准上领跑,而 OpenAI 在 MCP Atlas 上的「沉默缺席」就是信号。我们这周一直在写的 MCP 收敛(Anthropic 连接器、Google Agents CLI、Slack agent context)还没有变成「明确转向 GPT-5.5」的选择。第三,OpenAI 表示其 85% 以上的员工每周在使用 Codex;可以预见 OpenAI 自家产品就是 GPT-5.5 最激进的部署面 —— 也就意味着失败模式(我们昨天写过的 goblin 吸引子问题就是其一)会先在那里冒头。在你押注之前,先看 OpenAI 自己怎么 ship。