OpenAI 的 Codex 更新直指 Claude Code：上並行 agent、token 效率高 3 倍，但盲測仍是 Claude 贏 67%

OpenAI 在 4 月發布的 Codex 更新，在報導裡被描述為對 Anthropic 家 Claude Code 的一次直接出擊，這個描述也確實成立。這次刷新帶來三個具體變化。預設模型自 3 月 5 日起已經是 GPT-5.4，上下文支援 100 萬 tokens，並在大型程式碼庫上改進了工具檢索。Codex 現在可以在一個專案裡同時跑多個 agent，每個都在隔離的 git worktree 中執行，這正是 Claude Code 推廣起來的那套路。而且這次更新是作為 OpenAI 新推出的桌面 superapp 的一部分釋出的，把 ChatGPT、Codex 和 Atlas 瀏覽器合進了同一個環境。打算很清楚：對齊 Claude Code 的工作流，在成本與速度上反超，並讓 OpenAI 生態足夠黏，以至於買家懶得再去做比較。

對任何真的在兩者之間做選擇的人，有兩個數字要盯。在 2026 年初的盲測程式碼品質評估中，Claude Code 在等價任務上以 67% 的比率擊敗了 Codex CLI。同樣的任務裡，Codex 用掉的 token 大約少了 3 倍。兩個數據都真，且不互相矛盾。Claude Code 的優勢集中在「長上下文多步推理」場景，也就是它那 100 萬 tokens 真正被用起來、且 agent 需要把一個大計畫握在工作上下文裡的場景。Codex 的優勢集中在「邊界清晰、可並行」的任務上，此時 token 效率會沿著 fan-out 成倍累積。隔離 git worktree 裡跑並行 agent 這個能力，才是這次真正要評估的新功能。它把心智模型從「一個 agent，串行跑」換成了「派出十個 agent，回頭審十個 PR」。這種工作流對某些任務有力（修復掃除、相依升級、跨檔案重構），對另一些則沒用（單一 feature 的開發，協調開銷會吃掉並行收益）。

工具之爭已經過了「功能對齊」階段，進入了真正的定位階段。Claude Code 是複雜多步推理、長上下文執行、看重本地執行隱私的團隊，以及任何住在終端裡的人的預設選擇。Codex 是非同步與並行任務派發、大體量對成本敏感的營運、以及已經紮根在 OpenAI 生態裡的團隊的預設選擇。這兩條是不同的產品押注，兩條都成立。在兩者之間選的打造者，應該停止去找「唯一答案」，開始按任務形態來分流。值得盯的第三方是 Cursor，它正滑向一個「中立多模型外殼」的角色：一個介面層，讓團隊在深度推理上用 Claude，在並行派發上用 Codex，在敏感程式碼上用本地模型，而不必每次都重新搭工具鏈。如果 Cursor 把這層做對，模型選擇就從「平台決策」降格成了「配置決策」。

對任何今天在跑程式碼 agent 的人，後面三件事要做。第一，給每個任務埋上 token 成本指標，而不只是任務成功率。大多數團隊並不知道自己是不是在多付 3 倍錢，因為 token 數字很少在日常工作流裡被呈現出來。第二，審一下你家真正能從並行 agent 裡受益的是哪些任務。如果你的答案是「全部」，那說明你沒有誠實地想過協調開銷；如果答案是「沒有一個」，那你在修復類和相依類工作上大概想錯了。第三，讓你的 agent 外殼保持模型無關。Claude Opus 4.7 今天剛出，GPT-5.4 已經六週大了，下一代永遠就在幾週之外。2026 年 4 月贏的那個工具，不一定就是你到 Q3 想用的那個；而每個季度重寫一遍 agent 迴圈，不是一個可持續的姿態。

OpenAI 的 Codex 更新直指 Claude Code：上並行 agent、token 效率高 3 倍，但盲測仍是 Claude 贏 67%

更多新聞