OpenAI GPT-5.5 Instant：AIME 2025 81.2、MMMU-Pro 76.0、ChatGPT 默认

OpenAI 今天把 GPT-5.5 Instant ship 为新的 ChatGPT 默认模型，替换 GPT-5.3 Instant。Benchmark 移动幅度大到值得标注：AIME 2025 从 65.4 爬到 81.2 — 在一个为抗污染设计的留出数学 benchmark 上跳了 15.8 个点 — 而 MMMU-Pro 多模态推理从 69.2 升到 76.0。模型在 API 上以 `chat-latest` 提供；5.3 对付费用户保持三个月 sunset 窗口。pricing 细节、延迟 benchmark 和架构说明在发布报道中未披露，这把实质 eval 读法直接放在 OpenAI 选择突出的公开 benchmark 数字上。

「Instant」后缀延续 OpenAI 从 GPT-5 一代以来的 tier 策略：Instant 变体是 ChatGPT 消费流量的延迟优化默认，Thinking 变体保留给深思熟虑的推理工作负载。5.5 Instant 是完全重训的 backbone 还是在 5.3 权重上的强化 post-training pass，没披露 — 16 点的 AIME 跳跃可以合理地来自任一种。AIME 2025 被选中部分是因为测试题在大多数预训练 cutoff 之后才发布，所以污染不可能；这意味着收益是真正的推理能力，不是记忆。MMMU-Pro 数字在多模态侧讲类似故事：76.0 把通往 GPT-5 Thinking 领地的 gap 闭合到延迟成本的一部分。对那些把简单多模态查询路由通过 Gemini 2.5 Flash 因为 GPT-5.3 Instant 视觉是弱点的 builder，计算变了。

生态读法是 OpenAI 在刻意收敛 Instant-到-Thinking 的 gap。Anthropic 的 Sonnet 4.5 → Opus split 有同样形状但 delta 更小；Google 的 Gemini 2.5 Flash vs Pro 更宽。通过把默认 Instant 推到 AIME 81 和 MMMU-Pro 76，OpenAI 在论证你可以在便宜的 tier 上跑消费 chat 流量而不强迫用户知道选哪个模式。对在 API 上 ship chat 体验的 builder，`chat-latest` 别名是相关信号 — 如果你为稳定性把模型 pin 到特定版本，预期默认模型升级会继续在你下面挪动地板，把 eval 重跑预算进你的发布节奏。5.3 的三个月 sunset 是 OpenAI 的标准 pace；如果你的 eval harness 依赖冻结的 5.3 baseline，你现在有了一个时钟。

实际动作：这周在 `chat-latest` 上重 eval 你的头部流量 prompt。如果你的下游消费者把 GPT-5.3 Instant 与 Sonnet 4.5 或 Gemini 2.5 Flash 排过名，新数字可能会改变你的路由逻辑。数学和多模态用例获得最大提升；纯文本补全和 tool-calling 任务还没有公开 benchmark，所以测你自己的。5.3 的三个月窗口够做受控 rollout，但不够推迟 — 现在开始比较，否则你会在 deprecation 逼近时在 deadline 压力下做切换。对 ChatGPT 消费侧 builder（custom GPT、Apps SDK），底层模型现在默认更强，你之前的 prompt engineering 可能需要更轻的 scaffolding。

OpenAI GPT-5.5 Instant：AIME 2025 81.2、MMMU-Pro 76.0、ChatGPT 默认

更多新闻