OpenAI 在 GPT-5.4 一周后发布 GPT-5.5（代号「Spud」）：Terminal-Bench 2.0 82.7% 险超 Mythos Preview，Expert-SWE 73.1%，以更少 token 达成 GPT-5.4 同等延迟

OpenAI 今日发布 GPT-5.5，距离 GPT-5.4 仅七天——这是该公司在 5 系列里最快的发布节奏。Greg Brockman 把它定位为向「superapp」命题迈进的一步——这一命题 OpenAI 自上季度以来一直在释放信号；Research VP Amelia Glaese 称之为「我们迄今最强的编码模型」。该模型即刻发往 ChatGPT Plus、Pro、Business、Enterprise，GPT-5.5 Pro 发往后三档。Axios 报导其内部代号为「Spud」。

主打数字是 Terminal-Bench 2.0 拿到 82.7%（较 GPT-5.4 的 75.1% 上升），内部编码评测 Expert-SWE 拿到 73.1%（较 68.5% 上升）。VentureBeat 的框架抓住了最有意思的对照：仅在 Terminal-Bench 2.0 上，GPT-5.5 险超 Anthropic 的 Mythos Preview。值得一提的是，Mythos 是 Anthropic 尚未做通用发布的受限研究预览模型；GPT-5.5 今日就发给 ChatGPT 用户。对于服务经济账真正重要的是 OpenAI release notes 里的那条：GPT-5.5 在单 token 延迟上与 GPT-5.4 一致，但完成每个任务用更少 token。如果它在生产工作负载上成立，那就是在同一吞吐天花板上，直接降低了每次完成的成本。

节奏本身就是那个 pattern。GPT-5.4 发布于 4 月 16 日——与 Anthropic Opus 4.7 GA 同一天。GPT-5.5 是 4 月 23 日，一周之后，险超那个本身并非通用可得的 Mythos 上的一个基准。模型发布的节拍从以月为单位变成以周为单位，每次发布都带着精挑细选的基准，直接对标最近一家发布的竞品。对任何在 OpenAI 之上搭建的人来说，这种速度是两面刀：新能力来得更快，而你两周前所对着构建的那款模型，当用户来敲门时可能已经不再是默认选项了。

给 builder 三条具体提示。其一，如果你在 ChatGPT 或 API 上跑 agentic 工作流，那条「每 token 效率」主张，是你该先拿自己的工作负载去测的杠杆——Terminal-Bench 2.0 与 Expert-SWE 不是你的工作负载。其二，OpenAI release 里那套「端到端 coding 与工具使用」的叙事（写代码、debug、在线搜索、数据分析、生成文档与表格、操作软件、在工具之间流转直到任务完成），与我们整整一个月都在跟踪的 Claude Code/Gemini CLI/Cursor 特性面的收敛一致。其三，版本化纪律现在更重要。GPT-5.4 到 GPT-5.5 是七天的增量。把你依赖的模型字符串固定住。

OpenAI 在 GPT-5.4 一周后发布 GPT-5.5（代号「Spud」）：Terminal-Bench 2.0 82.7% 险超 Mythos Preview，Expert-SWE 73.1%，以更少 token 达成 GPT-5.4 同等延迟

更多新闻