La actualización de Codex de OpenAI apunta directo a Claude Code con agentes paralelos y 3x de eficiencia en tokens, pero las evals ciegas siguen dándole la victoria a Claude

OpenAI envió en abril una actualización de Codex enmarcada en la cobertura como un tiro directo a Claude Code de Anthropic, y el encuadre es justo. El refresh trae tres cambios concretos. El modelo por defecto es GPT-5.4 desde el 5 de marzo, con 1 millón de tokens de contexto y búsqueda de herramientas mejorada a través de codebases grandes. Codex ahora puede correr múltiples agentes concurrentes sobre un mismo proyecto, cada uno en un git worktree aislado, que es el patrón que Claude Code popularizó. Y la actualización sale como parte de la nueva superapp de escritorio unificada de OpenAI que combina ChatGPT, Codex y el navegador Atlas en un único entorno. El objetivo es claro: matchear el workflow de Claude Code, ganarle en costo y velocidad, y hacer al ecosistema OpenAI lo suficientemente pegajoso para que los compradores dejen de comparar.

Dos números importan para cualquiera que esté realmente eligiendo entre las dos herramientas. En evaluaciones ciegas de calidad de código a principios de 2026, Claude Code ganó el 67 por ciento de las veces contra Codex CLI en tareas equivalentes. En las mismas tareas, Codex usó aproximadamente 3x menos tokens. Ambas son reales, y no se contradicen. La ventaja de Claude Code se concentra en razonamiento multi-paso de contexto largo, donde su ventana de 1M tokens realmente se usa y el agente necesita sostener un plan grande en contexto de trabajo. La ventaja de Codex se concentra en tareas bien acotadas que paralelizan, donde la eficiencia en tokens compone a lo largo del fan-out. La capacidad de agentes paralelos en git worktrees es la verdadera nueva funcionalidad a evaluar. Cambia el modelo mental de "un agente, serializado" a "despachá diez agentes, revisá los diez PRs". Ese workflow es potente para ciertos tipos de trabajo (barridas de bug-fix, bumps de dependencias, refactors entre archivos) y poco útil para otros (desarrollo de una feature única donde el overhead de coordinación ahoga la ganancia de paralelismo).

La competencia de herramientas maduró más allá de la paridad de features hacia un posicionamiento genuino. Claude Code es el default para razonamiento multi-paso complejo, operación de contexto largo, equipos que les importa la privacidad de ejecución local, y cualquiera que vive en una terminal. Codex es el default para delegación asíncrona y paralela de tareas, operaciones sensibles al costo a volumen, y equipos ya embebidos en el ecosistema de OpenAI. Son apuestas de producto distintas, y ambas son legítimas. Los constructores que están eligiendo entre las dos deberían dejar de buscar una respuesta única y empezar a rutear tareas según su forma. El tercer jugador que vale seguir es Cursor, que se está deslizando hacia un rol de harness multi-modelo neutral: la capa de interfaz que permite a los equipos usar Claude para razonamiento profundo, Codex para dispatch paralelo, y un modelo local para código sensible, sin re-herramentarse cada vez. Si Cursor hace esa capa bien, la elección de modelo se vuelve una decisión de configuración en lugar de una decisión de plataforma.

Para cualquiera que esté corriendo un agente de código hoy, se siguen tres movimientos. Primero, instrumentá el costo en tokens por tarea, no solo la tasa de éxito. La mayoría de los equipos no sabe si está pagando 3x lo que necesitaría, porque el número de tokens rara vez aparece en el workflow diario. Segundo, auditá cuáles de tus tareas de código se benefician realmente de agentes paralelos. Si tu respuesta es "todas", no pensaste honestamente en el overhead de coordinación; si tu respuesta es "ninguna", probablemente te estás equivocando sobre tu trabajo de bug-fix y dependencias. Tercero, mantené tu harness de agentes independiente del modelo. Claude Opus 4.7 salió hoy, GPT-5.4 tiene seis semanas, y la próxima iteración siempre está a pocas semanas de distancia. Cualquier herramienta que gane en abril de 2026 no va a ser necesariamente la que querés para el Q3, y reescribir tus loops de agente cada trimestre no es una postura sostenible.

La actualización de Codex de OpenAI apunta directo a Claude Code con agentes paralelos y 3x de eficiencia en tokens, pero las evals ciegas siguen dándole la victoria a Claude

Más noticias