OpenAI 今天把 GPT-5.5 Instant ship 为新的 ChatGPT 默认模型,替换 GPT-5.3 Instant。Benchmark 移动幅度大到值得标注:AIME 2025 从 65.4 爬到 81.2 — 在一个为抗污染设计的留出数学 benchmark 上跳了 15.8 个点 — 而 MMMU-Pro 多模态推理从 69.2 升到 76.0。模型在 API 上以 `chat-latest` 提供;5.3 对付费用户保持三个月 sunset 窗口。pricing 细节、延迟 benchmark 和架构说明在发布报道中未披露,这把实质 eval 读法直接放在 OpenAI 选择突出的公开 benchmark 数字上。
「Instant」后缀延续 OpenAI 从 GPT-5 一代以来的 tier 策略:Instant 变体是 ChatGPT 消费流量的延迟优化默认,Thinking 变体保留给深思熟虑的推理工作负载。5.5 Instant 是完全重训的 backbone 还是在 5.3 权重上的强化 post-training pass,没披露 — 16 点的 AIME 跳跃可以合理地来自任一种。AIME 2025 被选中部分是因为测试题在大多数预训练 cutoff 之后才发布,所以污染不可能;这意味着收益是真正的推理能力,不是记忆。MMMU-Pro 数字在多模态侧讲类似故事:76.0 把通往 GPT-5 Thinking 领地的 gap 闭合到延迟成本的一部分。对那些把简单多模态查询路由通过 Gemini 2.5 Flash 因为 GPT-5.3 Instant 视觉是弱点的 builder,计算变了。
生态读法是 OpenAI 在刻意收敛 Instant-到-Thinking 的 gap。Anthropic 的 Sonnet 4.5 → Opus split 有同样形状但 delta 更小;Google 的 Gemini 2.5 Flash vs Pro 更宽。通过把默认 Instant 推到 AIME 81 和 MMMU-Pro 76,OpenAI 在论证你可以在便宜的 tier 上跑消费 chat 流量而不强迫用户知道选哪个模式。对在 API 上 ship chat 体验的 builder,`chat-latest` 别名是相关信号 — 如果你为稳定性把模型 pin 到特定版本,预期默认模型升级会继续在你下面挪动地板,把 eval 重跑预算进你的发布节奏。5.3 的三个月 sunset 是 OpenAI 的标准 pace;如果你的 eval harness 依赖冻结的 5.3 baseline,你现在有了一个时钟。
实际动作:这周在 `chat-latest` 上重 eval 你的头部流量 prompt。如果你的下游消费者把 GPT-5.3 Instant 与 Sonnet 4.5 或 Gemini 2.5 Flash 排过名,新数字可能会改变你的路由逻辑。数学和多模态用例获得最大提升;纯文本补全和 tool-calling 任务还没有公开 benchmark,所以测你自己的。5.3 的三个月窗口够做受控 rollout,但不够推迟 — 现在开始比较,否则你会在 deprecation 逼近时在 deadline 压力下做切换。对 ChatGPT 消费侧 builder(custom GPT、Apps SDK),底层模型现在默认更强,你之前的 prompt engineering 可能需要更轻的 scaffolding。
