OpenAI 今日发布 GPT-5.5,距离 GPT-5.4 仅七天——这是该公司在 5 系列里最快的发布节奏。Greg Brockman 把它定位为向「superapp」命题迈进的一步——这一命题 OpenAI 自上季度以来一直在释放信号;Research VP Amelia Glaese 称之为「我们迄今最强的编码模型」。该模型即刻发往 ChatGPT Plus、Pro、Business、Enterprise,GPT-5.5 Pro 发往后三档。Axios 报导其内部代号为「Spud」。
主打数字是 Terminal-Bench 2.0 拿到 82.7%(较 GPT-5.4 的 75.1% 上升),内部编码评测 Expert-SWE 拿到 73.1%(较 68.5% 上升)。VentureBeat 的框架抓住了最有意思的对照:仅在 Terminal-Bench 2.0 上,GPT-5.5 险超 Anthropic 的 Mythos Preview。值得一提的是,Mythos 是 Anthropic 尚未做通用发布的受限研究预览模型;GPT-5.5 今日就发给 ChatGPT 用户。对于服务经济账真正重要的是 OpenAI release notes 里的那条:GPT-5.5 在单 token 延迟上与 GPT-5.4 一致,但完成每个任务用更少 token。如果它在生产工作负载上成立,那就是在同一吞吐天花板上,直接降低了每次完成的成本。
节奏本身就是那个 pattern。GPT-5.4 发布于 4 月 16 日——与 Anthropic Opus 4.7 GA 同一天。GPT-5.5 是 4 月 23 日,一周之后,险超那个本身并非通用可得的 Mythos 上的一个基准。模型发布的节拍从以月为单位变成以周为单位,每次发布都带着精挑细选的基准,直接对标最近一家发布的竞品。对任何在 OpenAI 之上搭建的人来说,这种速度是两面刀:新能力来得更快,而你两周前所对着构建的那款模型,当用户来敲门时可能已经不再是默认选项了。
给 builder 三条具体提示。其一,如果你在 ChatGPT 或 API 上跑 agentic 工作流,那条「每 token 效率」主张,是你该先拿自己的工作负载去测的杠杆——Terminal-Bench 2.0 与 Expert-SWE 不是你的工作负载。其二,OpenAI release 里那套「端到端 coding 与工具使用」的叙事(写代码、debug、在线搜索、数据分析、生成文档与表格、操作软件、在工具之间流转直到任务完成),与我们整整一个月都在跟踪的 Claude Code/Gemini CLI/Cursor 特性面的收敛一致。其三,版本化纪律现在更重要。GPT-5.4 到 GPT-5.5 是七天的增量。把你依赖的模型字符串固定住。
