A OpenAI enviou em abril uma atualização do Codex enquadrada na cobertura como um tiro direto no Claude Code da Anthropic, e o enquadramento é justo. O refresh traz três mudanças concretas. O modelo padrão é o GPT-5.4 desde 5 de março, com 1 milhão de tokens de contexto e busca de ferramentas aprimorada em bases de código grandes. O Codex agora pode rodar múltiplos agentes concorrentes sobre um mesmo projeto, cada um em um git worktree isolado, que é o padrão que o Claude Code popularizou. E a atualização sai como parte do novo superapp de desktop unificado da OpenAI, que combina ChatGPT, Codex e o navegador Atlas em um único ambiente. O alvo é claro: combinar o workflow do Claude Code, ganhar dele em custo e velocidade, e deixar o ecossistema da OpenAI grudento o bastante para que compradores parem de comparar.
Dois números importam para quem está de fato escolhendo entre as duas ferramentas. Em avaliações cegas de qualidade de código no início de 2026, o Claude Code venceu 67 por cento das vezes contra o Codex CLI em tarefas equivalentes. Nas mesmas tarefas, o Codex usou aproximadamente 3x menos tokens. Ambos são reais, e não se contradizem. A vantagem do Claude Code se concentra em raciocínio multi-etapa de contexto longo, onde sua janela de 1M tokens é de fato usada e o agente precisa segurar um plano grande em contexto de trabalho. A vantagem do Codex se concentra em tarefas bem delimitadas que paralelizam, onde a eficiência em tokens compõe ao longo do fan-out. A capacidade de agentes paralelos em git worktrees é a verdadeira nova funcionalidade a avaliar. Ela muda o modelo mental de "um agente, serializado" para "despache dez agentes, revise os dez PRs". Esse workflow é potente para certos tipos de trabalho (varreduras de bug-fix, bumps de dependências, refatorações entre arquivos) e pouco útil para outros (desenvolvimento de feature única em que o overhead de coordenação afoga o ganho do paralelismo).
A competição de ferramentas amadureceu para além da paridade de features em direção a um posicionamento genuíno. O Claude Code é o padrão para raciocínio multi-etapa complexo, operação de contexto longo, times que se importam com privacidade de execução local, e qualquer um que viva em terminal. O Codex é o padrão para delegação assíncrona e paralela de tarefas, operações sensíveis a custo em volume, e times já embutidos no ecossistema da OpenAI. São apostas de produto diferentes, e ambas são legítimas. Quem constrói escolhendo entre elas deve parar de procurar uma resposta única e começar a rotear tarefas por formato. O terceiro jogador que vale acompanhar é o Cursor, que está deslizando para um papel de harness multi-modelo neutro: a camada de interface que permite a times usarem Claude para raciocínio profundo, Codex para dispatch paralelo, e um modelo local para código sensível, sem re-ferramentar a cada vez. Se o Cursor acertar essa camada, a escolha de modelo vira uma decisão de configuração em vez de uma decisão de plataforma.
Para quem está rodando um agente de código hoje, seguem-se três movimentos. Primeiro, instrumente o custo em tokens por tarefa, não só a taxa de sucesso. A maioria dos times não sabe se está pagando 3x o que precisaria, porque o número de tokens raramente aparece no workflow diário. Segundo, audite quais das suas tarefas de código de fato se beneficiam de agentes paralelos. Se sua resposta é "todas", você não pensou honestamente no overhead de coordenação; se é "nenhuma", provavelmente está errando sobre seu trabalho de bug-fix e de dependências. Terceiro, mantenha seu harness de agentes independente de modelo. O Claude Opus 4.7 saiu hoje, o GPT-5.4 tem seis semanas, e a próxima iteração sempre está a poucas semanas de distância. Qualquer ferramenta que vencer em abril de 2026 não vai ser necessariamente a que você quer no Q3, e reescrever seus loops de agente todo trimestre não é uma postura sustentável.
