Artificial Analysis 今天發布了對 GPT-5.5 的獨立 eval,頭條是 vendor claims 與第三方測量之間的差距。AA Intelligence Index 把 GPT-5.5 (xhigh) 頂上第一名 3 分,打破了與之前 frontier 模型的三方平局 — 在 Terminal-Bench Hard 和 GDPval-AA 上領先,在 CritPt 上落後,在三個 benchmark 上排在 Gemini 3.1 Pro 之後第二。在 AA-Omniscience — 他們的事實知識 benchmark — 上,GPT-5.5 獲得最高 accuracy 57%,但幻覺率 86%。Claude Opus 4.7 (max) 在同一 benchmark 上是 36% 幻覺;Gemini 3.1 Pro 是 50%。OpenAI 發布日「幻覺下降 60%」的 claim 是在與 AA 測試不同的 terrain 上測量的,那個 gap 才是 builder 應該關心的讀法。
方法學差異要緊。OpenAI 的幻覺評估顯然使用了 ground truth 已建立且模型有訓練資料覆蓋的 prompt — 「下降 60%」測量的是 OpenAI 控制的 baseline 上的改進。AA-Omniscience 瞄準更難的情況:關於晦澀-但-可驗證的話題的事實 claim,在那裡模型傾向於編造聽起來合理的答案,因為它們不知道自己不知道什麼。與 Opus 4.7 的 86%-vs-36% gap 並不是說 GPT-5.5 在事實上「廣義更差」;是說 GPT-5.5 在被推過其知識邊界時更自信地編造。這是一種被認可的 trade — 容易尾上更高的 accuracy 可能伴隨困難尾上更高的編造,尤其是當 post-training 獎勵聽起來自信的回答。AA 的 extended-thinking 模式 framework 顯示了機制:GPT-5.5 Pro extended thinking 把幻覺率減半(8.3% → 4.2% 在某個 benchmark 切片;未指明哪個)。推理過程中的自我糾正是真實的,但在 OpenAI 剛 ship 的 Instant tier 中預設未啟用。
成本經濟學是讀法的另一半。AA 報告 GPT-5.5 的價格相對前一代 5.4 翻倍到 $5/$30 每 1M 輸入/輸出 token。儘管同樣的 workload 上 output token 少 ~40%,跑 AA Intelligence Index 在 5.5 上的花費要多約 20%。有意思的角度:GPT-5.5 medium reasoning effort 以約四分之一的成本(~$1,200 vs $4,800 跑 Index)匹配 Opus 4.7 的性能。對評估 routing 策略的 builder — 難問題用 Opus、其餘用 GPT-5.5 medium — 經濟學現在比 5.4 時代更激進地偏向混合。high-effort tier (xhigh) 是領導力 claim 所在,但 medium tier 的性價比才是 builder 的真實計算。對使用預設 Instant 的 ChatGPT 消費者,這些都不直接適用 — Instant 定位是延遲而非延伸推理,86% AA-Omniscience 數字是在 xhigh tier 上,不是 Instant。
實際動作:如果你 ship 事實查詢或研究助理流,AA-Omniscience 風格的失敗是要測試的失敗模式,GPT-5.5 與 Opus 4.7 之間的 50 點 gap 大到對 routing 決策有意義。建構一個晦澀-但-可驗證事實查詢的小型私有 eval set(學術引用、小眾技術規範、歷史細節),跑兩個模型 — 你領域特定的 gap 可能與 AA 的整體數字不同,但你會知道往哪邊路由。對程式碼和推理工作負載,GPT-5.5 medium 以四分之一成本擊中 Opus 性能是真正的勝利 — 如果你為 cost-insensitive 深度任務一直預設到 Opus,重新評估你的 routing。eval 教訓超越這次發布:vendor 幻覺 claim 和獨立 benchmark 幻覺率測量不同的東西,「好 60%」只對它被測量的 harness 有特定意義。兩個都追蹤。
