GPT-5.5 lança a 2× o preço API do GPT-5.4 — Terminal-Bench 2.0 a 82,7%, mas Claude Opus 4.7 ainda lidera o MCP Atlas

A OpenAI lançou o GPT-5.5 em 23 de abril, com o acesso API abrindo em 24 de abril. O enquadramento: "uma nova classe de inteligência para trabalho real e para alimentar agents," projetado para planejar, usar ferramentas, autoverificar e trabalhar através de tarefas de forma independente. O modelo é o primeiro modelo base re-treinado desde o GPT-4.5, co-projetado com os sistemas rack-scale GB200 e GB300 NVL72 da NVIDIA. Está sendo distribuído para usuários Plus, Pro, Business e Enterprise no ChatGPT e no Codex. O preço é a parte para ler com cuidado: GPT-5.5 standard é US$5 por milhão de tokens input e US$30 por milhão de tokens output, exatamente 2× as tarifas do GPT-5.4. GPT-5.5 Pro, com compute paralelo em tempo de teste, é US$30 input / US$180 output. A defesa da OpenAI pela tarifa dobrada é que o GPT-5.5 completa as mesmas tarefas de Codex com menos tokens — o laboratório de testes independente Artificial Analysis validou que os custos efetivos pousam por volta de 20% mais alto em vez de 2×.

Os benchmarks explicam por que a OpenAI está disposta a cobrar o dobro. No Terminal-Bench 2.0 — workflows de linha de comando que exigem planejamento e coordenação de ferramentas num ambiente sandboxed — o GPT-5.5 bate 82,7%, contra 75,1% do GPT-5.4 e 69,4% do Claude Opus 4.7. No SWE-Bench Pro (resolução de issues do GitHub), chega a 58,6%. No Expert-SWE — o benchmark interno da OpenAI sobre tarefas com mediana de 20 horas de completion humana — 73,1% vs 68,5% do GPT-5.4. O salto mais marcante é no MRCR v2 a um milhão de tokens, um benchmark de retrieval em contexto longo, onde o GPT-5.5 marca 74,0% contra 36,6% do GPT-5.4 — quase um dobro. Os números honestos também estão na tabela: no MCP Atlas, o benchmark da Scale AI sobre uso de ferramentas no Model Context Protocol, o Claude Opus 4.7 lidera com 79,1% e a OpenAI não reportou um score do GPT-5.5, deixando a célula em branco na própria tabela publicada. O GPT-5.5 Pro lidera o BrowseComp (navegação web) com 90,1%.

Três padrões se conectam. Primeiro, o lançamento do GPT-5.5 em 23 de abril é a causa do cluster de notícias de preços desta semana: o GitHub anunciou a mudança do Copilot para AI Credits por uso em 28 de abril, citando explicitamente os custos de inferência disparando. A Microsoft faz seus usuários pagarem pelos mesmos tokens que a OpenAI cobra em dobro. Segundo, a matemática da comparação a 10 milhões de tokens output por mês é concreta — GPT-5.5 standard é US$300, Claude Opus 4.7 é US$250, um prêmio de 20% que só compensa se a alegação do GPT-5.5 de "menos iterações de tarefa" se sustenta para o seu workload específico. O número de 20% da Artificial Analysis é a média populacional, não a resposta por tarefa. Terceiro, a disposição da OpenAI de publicar uma tabela de benchmarks onde o Claude Opus 4.7 lidera o MCP Atlas — e de deixar o score do GPT-5.5 em branco — é a divulgação mais útil do lançamento. Sinaliza que em uso de ferramentas por protocolo a Anthropic ainda está à frente, e a vantagem do GPT-5.5 está em retrieval de contexto longo e tarefas agentic de ponta a ponta, não em integrações MCP especificamente.

Para os builders, três coisas concretas. Primeiro, não troque do GPT-5.4 ou Claude Opus 4.7 para o GPT-5.5 na matemática do marketing. Rode o seu workload específico em ambos por duas semanas, meça tokens-por-tarefa-completada e calcule o custo efetivo a partir dos seus próprios números — não da média populacional de 20%. Segundo, se a sua aplicação se apoia em chamadas de ferramentas estilo MCP, o Claude Opus 4.7 ainda lidera o benchmark público e a ausência silenciosa da OpenAI no MCP Atlas é o sinal. A convergência MCP que viemos cobrindo esta semana (conectores da Anthropic, Agents CLI do Google, contexto de agente do Slack) ainda não é uma escolha resolvida a favor do GPT-5.5. Terceiro, a OpenAI diz que mais de 85% dos seus funcionários usam o Codex semanalmente; espere que a própria superfície de produto da OpenAI seja o deployer mais agressivo do GPT-5.5, o que significa que os modos de falha (o problema do atrator goblin que cobrimos ontem é um) vão aparecer ali primeiro. Olhe o que a própria OpenAI lança antes de se comprometer.

GPT-5.5 lança a 2× o preço API do GPT-5.4 — Terminal-Bench 2.0 a 82,7%, mas Claude Opus 4.7 ainda lidera o MCP Atlas

Mais notícias