OpenAI 今天把 GPT-5.5 Instant ship 為新的 ChatGPT 預設模型,取代 GPT-5.3 Instant。Benchmark 移動幅度大到值得標註:AIME 2025 從 65.4 爬到 81.2 — 在一個為抗污染設計的保留數學 benchmark 上跳了 15.8 個點 — 而 MMMU-Pro 多模態推理從 69.2 升到 76.0。模型在 API 上以 `chat-latest` 提供;5.3 對付費使用者保持三個月 sunset 視窗。pricing 細節、延遲 benchmark 和架構說明在發布報導中未揭露,這把實質 eval 讀法直接放在 OpenAI 選擇突出的公開 benchmark 數字上。
「Instant」字尾延續 OpenAI 從 GPT-5 一代以來的 tier 策略:Instant 變體是 ChatGPT 消費流量的延遲優化預設,Thinking 變體保留給深思熟慮的推理工作負載。5.5 Instant 是完全重訓的 backbone 還是在 5.3 權重上的強化 post-training pass,沒揭露 — 16 點的 AIME 跳躍可以合理地來自任一種。AIME 2025 被選中部分是因為測試題在大多數預訓練 cutoff 之後才發布,所以污染不可能;這意味著收益是真正的推理能力,不是記憶。MMMU-Pro 數字在多模態側講類似故事:76.0 把通往 GPT-5 Thinking 領地的 gap 閉合到延遲成本的一部分。對那些把簡單多模態查詢路由透過 Gemini 2.5 Flash 因為 GPT-5.3 Instant 視覺是弱點的 builder,計算變了。
生態讀法是 OpenAI 在刻意收斂 Instant-到-Thinking 的 gap。Anthropic 的 Sonnet 4.5 → Opus split 有同樣形狀但 delta 更小;Google 的 Gemini 2.5 Flash vs Pro 更寬。透過把預設 Instant 推到 AIME 81 和 MMMU-Pro 76,OpenAI 在論證你可以在便宜的 tier 上跑消費 chat 流量而不強迫使用者知道選哪個模式。對在 API 上 ship chat 體驗的 builder,`chat-latest` 別名是相關信號 — 如果你為穩定性把模型 pin 到特定版本,預期預設模型升級會繼續在你下面挪動地板,把 eval 重跑預算進你的發布節奏。5.3 的三個月 sunset 是 OpenAI 的標準 pace;如果你的 eval harness 依賴凍結的 5.3 baseline,你現在有了一個時鐘。
實際動作:這週在 `chat-latest` 上重 eval 你的頭部流量 prompt。如果你的下游消費者把 GPT-5.3 Instant 與 Sonnet 4.5 或 Gemini 2.5 Flash 排過名,新數字可能會改變你的路由邏輯。數學和多模態用例獲得最大提升;純文字補全和 tool-calling 任務還沒有公開 benchmark,所以測你自己的。5.3 的三個月視窗夠做受控 rollout,但不夠推遲 — 現在開始比較,否則你會在 deprecation 逼近時在 deadline 壓力下做切換。對 ChatGPT 消費側 builder(custom GPT、Apps SDK),底層模型現在預設更強,你之前的 prompt engineering 可能需要更輕的 scaffolding。
