Artificial Analysis 今天发布了对 GPT-5.5 的独立 eval,头条是 vendor claims 与第三方测量之间的差距。AA Intelligence Index 把 GPT-5.5 (xhigh) 顶上第一名 3 分,打破了与之前 frontier 模型的三方平局 — 在 Terminal-Bench Hard 和 GDPval-AA 上领先,在 CritPt 上落后,在三个 benchmark 上排在 Gemini 3.1 Pro 之后第二。在 AA-Omniscience — 他们的事实知识 benchmark — 上,GPT-5.5 获得最高 accuracy 57%,但幻觉率 86%。Claude Opus 4.7 (max) 在同一 benchmark 上是 36% 幻觉;Gemini 3.1 Pro 是 50%。OpenAI 发布日「幻觉下降 60%」的 claim 是在与 AA 测试不同的 terrain 上测量的,那个 gap 才是 builder 应该关心的读法。
方法学差异要紧。OpenAI 的幻觉评估显然使用了 ground truth 已建立且模型有训练数据覆盖的 prompt — 「下降 60%」测量的是 OpenAI 控制的 baseline 上的改进。AA-Omniscience 瞄准更难的情况:关于晦涩-但-可验证的话题的事实 claim,在那里模型倾向于编造听起来合理的答案,因为它们不知道自己不知道什么。与 Opus 4.7 的 86%-vs-36% gap 并不是说 GPT-5.5 在事实上「广义更差」;是说 GPT-5.5 在被推过其知识边界时更自信地编造。这是一种被认可的 trade — 容易尾上更高的 accuracy 可能伴随困难尾上更高的编造,尤其是当 post-training 奖励听起来自信的回答。AA 的 extended-thinking 模式 framework 显示了机制:GPT-5.5 Pro extended thinking 把幻觉率减半(8.3% → 4.2% 在某个 benchmark 切片;未指明哪个)。推理过程中的自我纠正是真实的,但在 OpenAI 刚 ship 的 Instant tier 中默认未启用。
成本经济学是读法的另一半。AA 报告 GPT-5.5 的价格相对前一代 5.4 翻倍到 $5/$30 每 1M 输入/输出 token。尽管同样的 workload 上 output token 少 ~40%,跑 AA Intelligence Index 在 5.5 上的花费要多约 20%。有意思的角度:GPT-5.5 medium reasoning effort 以约四分之一的成本(~$1,200 vs $4,800 跑 Index)匹配 Opus 4.7 的性能。对评估 routing 策略的 builder — 难问题用 Opus、其余用 GPT-5.5 medium — 经济学现在比 5.4 时代更激进地偏向混合。high-effort tier (xhigh) 是领导力 claim 所在,但 medium tier 的性价比才是 builder 的真实计算。对使用默认 Instant 的 ChatGPT 消费者,这些都不直接适用 — Instant 定位是延迟而非延伸推理,86% AA-Omniscience 数字是在 xhigh tier 上,不是 Instant。
实际动作:如果你 ship 事实查询或研究助理流,AA-Omniscience 风格的失败是要测试的失败模式,GPT-5.5 与 Opus 4.7 之间的 50 点 gap 大到对 routing 决策有意义。构建一个晦涩-但-可验证事实查询的小型私有 eval set(学术引用、小众技术规范、历史细节),跑两个模型 — 你领域特定的 gap 可能与 AA 的整体数字不同,但你会知道往哪边路由。对代码和推理工作负载,GPT-5.5 medium 以四分之一成本击中 Opus 性能是真正的胜利 — 如果你为 cost-insensitive 深度任务一直默认到 Opus,重新评估你的 routing。eval 教训超越这次发布:vendor 幻觉 claim 和独立 benchmark 幻觉率测量不同的东西,「好 60%」只对它被测量的 harness 有特定意义。两个都跟踪。
