OpenAI 在 4 月发布的 Codex 更新,在报道里被描述为对 Anthropic 家 Claude Code 的一次直接出击,这个描述也确实成立。这次刷新带来三个具体变化。默认模型自 3 月 5 日起已经是 GPT-5.4,上下文支持 100 万 tokens,并在大代码库上改进了工具检索。Codex 现在可以在一个项目里同时跑多个 agent,每个都在隔离的 git worktree 中运行,这正是 Claude Code 所推广起来的那套路。而且这次更新是作为 OpenAI 新推出的桌面 superapp 的一部分发布的,把 ChatGPT、Codex 和 Atlas 浏览器合进了同一个环境。打算很清楚:对齐 Claude Code 的工作流,在成本与速度上反超,并让 OpenAI 生态足够粘,以至于买家懒得再做对比。
对任何真的在两者之间做选择的人,有两个数字要盯。在 2026 年初的盲测代码质量评估中,Claude Code 在等价任务上以 67% 的比率击败了 Codex CLI。同样的任务里,Codex 用掉的 token 大约少了 3 倍。两个数据都真,且不互相矛盾。Claude Code 的优势集中在"长上下文多步推理"场景,也就是它那 100 万 tokens 真正被用起来、且 agent 需要把一个大计划握在工作上下文里的场景。Codex 的优势集中在"边界清晰、可并行"的任务上,此时 token 效率会沿着扇出成倍累积。隔离 git worktree 里跑并行 agent 这个能力,才是这次真正要评估的新功能。它把心智模型从"一个 agent,串行跑"换成了"派出十个 agent,回头审十个 PR"。这种工作流对某些任务有力(修复扫除、依赖升级、跨文件重构),对另一些则没用(单一 feature 的开发,协调开销会吃掉并行收益)。
工具之争已经过了"功能对齐"阶段,进入了真正的定位阶段。Claude Code 是复杂多步推理、长上下文运行、看重本地执行隐私的团队,以及任何住在终端里的人的默认选择。Codex 是异步和并行任务派发、大体量对成本敏感的运营、以及已经扎根在 OpenAI 生态里的团队的默认选择。这两条是不同的产品押注,两条都成立。在两者之间选的构建者,应该停止去找"唯一答案",开始按任务形态来分流。值得盯的第三方是 Cursor,它正滑向一个"中立多模型外壳"的角色:一个界面层,让团队在深度推理上用 Claude,在并行派发上用 Codex,在敏感代码上用本地模型,而不必每次都重新搭工具链。如果 Cursor 把这层做对,模型选择就从"平台决策"降格成了"配置决策"。
对任何今天在跑代码 agent 的人,后面三件事要做。第一,给每个任务埋上 token 成本指标,而不只是任务成功率。大多数团队并不知道自己是不是在多付 3 倍钱,因为 token 数字很少在日常工作流里被呈现出来。第二,审一下你家真正能从并行 agent 里受益的是哪些任务。如果你的答案是"全部",那说明你没有诚实地想过协调开销;如果答案是"没有一个",那你在修复类和依赖类工作上大概想错了。第三,让你的 agent 外壳保持模型无关。Claude Opus 4.7 今天刚出,GPT-5.4 已经六周大了,下一代永远就在几周之外。2026 年 4 月赢的那个工具,不一定就是你到 Q3 想用的那个;而每个季度重写一遍 agent 循环,不是一个可持续的姿态。
