OpenAI 的 Codex 更新直指 Claude Code：上并行 agent、token 效率高 3 倍，但盲测仍是 Claude 赢 67%

OpenAI 在 4 月发布的 Codex 更新，在报道里被描述为对 Anthropic 家 Claude Code 的一次直接出击，这个描述也确实成立。这次刷新带来三个具体变化。默认模型自 3 月 5 日起已经是 GPT-5.4，上下文支持 100 万 tokens，并在大代码库上改进了工具检索。Codex 现在可以在一个项目里同时跑多个 agent，每个都在隔离的 git worktree 中运行，这正是 Claude Code 所推广起来的那套路。而且这次更新是作为 OpenAI 新推出的桌面 superapp 的一部分发布的，把 ChatGPT、Codex 和 Atlas 浏览器合进了同一个环境。打算很清楚：对齐 Claude Code 的工作流，在成本与速度上反超，并让 OpenAI 生态足够粘，以至于买家懒得再做对比。

对任何真的在两者之间做选择的人，有两个数字要盯。在 2026 年初的盲测代码质量评估中，Claude Code 在等价任务上以 67% 的比率击败了 Codex CLI。同样的任务里，Codex 用掉的 token 大约少了 3 倍。两个数据都真，且不互相矛盾。Claude Code 的优势集中在"长上下文多步推理"场景，也就是它那 100 万 tokens 真正被用起来、且 agent 需要把一个大计划握在工作上下文里的场景。Codex 的优势集中在"边界清晰、可并行"的任务上，此时 token 效率会沿着扇出成倍累积。隔离 git worktree 里跑并行 agent 这个能力，才是这次真正要评估的新功能。它把心智模型从"一个 agent，串行跑"换成了"派出十个 agent，回头审十个 PR"。这种工作流对某些任务有力（修复扫除、依赖升级、跨文件重构），对另一些则没用（单一 feature 的开发，协调开销会吃掉并行收益）。

工具之争已经过了"功能对齐"阶段，进入了真正的定位阶段。Claude Code 是复杂多步推理、长上下文运行、看重本地执行隐私的团队，以及任何住在终端里的人的默认选择。Codex 是异步和并行任务派发、大体量对成本敏感的运营、以及已经扎根在 OpenAI 生态里的团队的默认选择。这两条是不同的产品押注，两条都成立。在两者之间选的构建者，应该停止去找"唯一答案"，开始按任务形态来分流。值得盯的第三方是 Cursor，它正滑向一个"中立多模型外壳"的角色：一个界面层，让团队在深度推理上用 Claude，在并行派发上用 Codex，在敏感代码上用本地模型，而不必每次都重新搭工具链。如果 Cursor 把这层做对，模型选择就从"平台决策"降格成了"配置决策"。

对任何今天在跑代码 agent 的人，后面三件事要做。第一，给每个任务埋上 token 成本指标，而不只是任务成功率。大多数团队并不知道自己是不是在多付 3 倍钱，因为 token 数字很少在日常工作流里被呈现出来。第二，审一下你家真正能从并行 agent 里受益的是哪些任务。如果你的答案是"全部"，那说明你没有诚实地想过协调开销；如果答案是"没有一个"，那你在修复类和依赖类工作上大概想错了。第三，让你的 agent 外壳保持模型无关。Claude Opus 4.7 今天刚出，GPT-5.4 已经六周大了，下一代永远就在几周之外。2026 年 4 月赢的那个工具，不一定就是你到 Q3 想用的那个；而每个季度重写一遍 agent 循环，不是一个可持续的姿态。

OpenAI 的 Codex 更新直指 Claude Code：上并行 agent、token 效率高 3 倍，但盲测仍是 Claude 赢 67%

更多新闻