OpenAI 在 4 月發布的 Codex 更新,在報導裡被描述為對 Anthropic 家 Claude Code 的一次直接出擊,這個描述也確實成立。這次刷新帶來三個具體變化。預設模型自 3 月 5 日起已經是 GPT-5.4,上下文支援 100 萬 tokens,並在大型程式碼庫上改進了工具檢索。Codex 現在可以在一個專案裡同時跑多個 agent,每個都在隔離的 git worktree 中執行,這正是 Claude Code 推廣起來的那套路。而且這次更新是作為 OpenAI 新推出的桌面 superapp 的一部分釋出的,把 ChatGPT、Codex 和 Atlas 瀏覽器合進了同一個環境。打算很清楚:對齊 Claude Code 的工作流,在成本與速度上反超,並讓 OpenAI 生態足夠黏,以至於買家懶得再去做比較。

對任何真的在兩者之間做選擇的人,有兩個數字要盯。在 2026 年初的盲測程式碼品質評估中,Claude Code 在等價任務上以 67% 的比率擊敗了 Codex CLI。同樣的任務裡,Codex 用掉的 token 大約少了 3 倍。兩個數據都真,且不互相矛盾。Claude Code 的優勢集中在「長上下文多步推理」場景,也就是它那 100 萬 tokens 真正被用起來、且 agent 需要把一個大計畫握在工作上下文裡的場景。Codex 的優勢集中在「邊界清晰、可並行」的任務上,此時 token 效率會沿著 fan-out 成倍累積。隔離 git worktree 裡跑並行 agent 這個能力,才是這次真正要評估的新功能。它把心智模型從「一個 agent,串行跑」換成了「派出十個 agent,回頭審十個 PR」。這種工作流對某些任務有力(修復掃除、相依升級、跨檔案重構),對另一些則沒用(單一 feature 的開發,協調開銷會吃掉並行收益)。

工具之爭已經過了「功能對齊」階段,進入了真正的定位階段。Claude Code 是複雜多步推理、長上下文執行、看重本地執行隱私的團隊,以及任何住在終端裡的人的預設選擇。Codex 是非同步與並行任務派發、大體量對成本敏感的營運、以及已經紮根在 OpenAI 生態裡的團隊的預設選擇。這兩條是不同的產品押注,兩條都成立。在兩者之間選的打造者,應該停止去找「唯一答案」,開始按任務形態來分流。值得盯的第三方是 Cursor,它正滑向一個「中立多模型外殼」的角色:一個介面層,讓團隊在深度推理上用 Claude,在並行派發上用 Codex,在敏感程式碼上用本地模型,而不必每次都重新搭工具鏈。如果 Cursor 把這層做對,模型選擇就從「平台決策」降格成了「配置決策」。

對任何今天在跑程式碼 agent 的人,後面三件事要做。第一,給每個任務埋上 token 成本指標,而不只是任務成功率。大多數團隊並不知道自己是不是在多付 3 倍錢,因為 token 數字很少在日常工作流裡被呈現出來。第二,審一下你家真正能從並行 agent 裡受益的是哪些任務。如果你的答案是「全部」,那說明你沒有誠實地想過協調開銷;如果答案是「沒有一個」,那你在修復類和相依類工作上大概想錯了。第三,讓你的 agent 外殼保持模型無關。Claude Opus 4.7 今天剛出,GPT-5.4 已經六週大了,下一代永遠就在幾週之外。2026 年 4 月贏的那個工具,不一定就是你到 Q3 想用的那個;而每個季度重寫一遍 agent 迴圈,不是一個可持續的姿態。