OpenAI 今日發布 GPT-5.5,距離 GPT-5.4 僅七天——這是該公司在 5 系列裡最快的發布節奏。Greg Brockman 把它定位為向「superapp」命題邁進的一步——這一命題 OpenAI 自上季度以來一直在釋放訊號;Research VP Amelia Glaese 稱之為「我們迄今最強的編碼模型」。該模型即刻發往 ChatGPT Plus、Pro、Business、Enterprise,GPT-5.5 Pro 發往後三檔。Axios 報導其內部代號為「Spud」。

主打數字是 Terminal-Bench 2.0 拿到 82.7%(較 GPT-5.4 的 75.1% 上升),內部編碼評測 Expert-SWE 拿到 73.1%(較 68.5% 上升)。VentureBeat 的框架抓住了最有意思的對照:僅在 Terminal-Bench 2.0 上,GPT-5.5 險超 Anthropic 的 Mythos Preview。值得一提的是,Mythos 是 Anthropic 尚未做通用發布的受限研究預覽模型;GPT-5.5 今日就發給 ChatGPT 使用者。對於服務經濟帳真正重要的是 OpenAI release notes 裡的那條:GPT-5.5 在單 token 延遲上與 GPT-5.4 一致,但完成每個任務用更少 token。如果它在生產工作負載上成立,那就是在同一吞吐天花板上,直接降低了每次完成的成本。

節奏本身就是那個 pattern。GPT-5.4 發布於 4 月 16 日——與 Anthropic Opus 4.7 GA 同一天。GPT-5.5 是 4 月 23 日,一週之後,險超那個本身並非通用可得的 Mythos 上的一個基準。模型發布的節拍從以月為單位變成以週為單位,每次發布都帶著精挑細選的基準,直接對標最近一家發布的競品。對任何在 OpenAI 之上搭建的人來說,這種速度是兩面刀:新能力來得更快,而你兩週前所對著建構的那款模型,當使用者來敲門時可能已經不再是預設選項了。

給 builder 三條具體提示。其一,如果你在 ChatGPT 或 API 上跑 agentic 工作流,那條「每 token 效率」主張,是你該先拿自己的工作負載去測的槓桿——Terminal-Bench 2.0 與 Expert-SWE 不是你的工作負載。其二,OpenAI release 裡那套「端到端 coding 與工具使用」的敘事(寫程式、debug、線上搜尋、資料分析、產生文件與試算表、操作軟體、在工具之間流轉直到任務完成),與我們整整一個月都在跟蹤的 Claude Code/Gemini CLI/Cursor 特性面的收斂一致。其三,版本化紀律現在更重要。GPT-5.4 到 GPT-5.5 是七天的增量。把你依賴的模型字串固定住。