OpenAI 在 GPT-5.4 一週後發布 GPT-5.5（代號「Spud」）：Terminal-Bench 2.0 82.7% 險超 Mythos Preview，Expert-SWE 73.1%，以更少 token 達成 GPT-5.4 同等延遲

OpenAI 今日發布 GPT-5.5，距離 GPT-5.4 僅七天——這是該公司在 5 系列裡最快的發布節奏。Greg Brockman 把它定位為向「superapp」命題邁進的一步——這一命題 OpenAI 自上季度以來一直在釋放訊號；Research VP Amelia Glaese 稱之為「我們迄今最強的編碼模型」。該模型即刻發往 ChatGPT Plus、Pro、Business、Enterprise，GPT-5.5 Pro 發往後三檔。Axios 報導其內部代號為「Spud」。

主打數字是 Terminal-Bench 2.0 拿到 82.7%（較 GPT-5.4 的 75.1% 上升），內部編碼評測 Expert-SWE 拿到 73.1%（較 68.5% 上升）。VentureBeat 的框架抓住了最有意思的對照：僅在 Terminal-Bench 2.0 上，GPT-5.5 險超 Anthropic 的 Mythos Preview。值得一提的是，Mythos 是 Anthropic 尚未做通用發布的受限研究預覽模型；GPT-5.5 今日就發給 ChatGPT 使用者。對於服務經濟帳真正重要的是 OpenAI release notes 裡的那條：GPT-5.5 在單 token 延遲上與 GPT-5.4 一致，但完成每個任務用更少 token。如果它在生產工作負載上成立，那就是在同一吞吐天花板上，直接降低了每次完成的成本。

節奏本身就是那個 pattern。GPT-5.4 發布於 4 月 16 日——與 Anthropic Opus 4.7 GA 同一天。GPT-5.5 是 4 月 23 日，一週之後，險超那個本身並非通用可得的 Mythos 上的一個基準。模型發布的節拍從以月為單位變成以週為單位，每次發布都帶著精挑細選的基準，直接對標最近一家發布的競品。對任何在 OpenAI 之上搭建的人來說，這種速度是兩面刀：新能力來得更快，而你兩週前所對著建構的那款模型，當使用者來敲門時可能已經不再是預設選項了。

給 builder 三條具體提示。其一，如果你在 ChatGPT 或 API 上跑 agentic 工作流，那條「每 token 效率」主張，是你該先拿自己的工作負載去測的槓桿——Terminal-Bench 2.0 與 Expert-SWE 不是你的工作負載。其二，OpenAI release 裡那套「端到端 coding 與工具使用」的敘事（寫程式、debug、線上搜尋、資料分析、產生文件與試算表、操作軟體、在工具之間流轉直到任務完成），與我們整整一個月都在跟蹤的 Claude Code/Gemini CLI/Cursor 特性面的收斂一致。其三，版本化紀律現在更重要。GPT-5.4 到 GPT-5.5 是七天的增量。把你依賴的模型字串固定住。

OpenAI 在 GPT-5.4 一週後發布 GPT-5.5（代號「Spud」）：Terminal-Bench 2.0 82.7% 險超 Mythos Preview，Expert-SWE 73.1%，以更少 token 達成 GPT-5.4 同等延遲

更多新聞