OpenAI envia GPT-5.5 ('Spud') uma semana depois do GPT-5.4: 82,7% no Terminal-Bench 2.0 superando por pouco o Mythos Preview, 73,1% no Expert-SWE, iguala latência do GPT-5.4 com menos tokens

A OpenAI enviou o GPT-5.5 hoje, sete dias depois do GPT-5.4 — a cadência de release mais rápida que a empresa já rodou na série 5. Greg Brockman enquadrou como um passo em direção à tese "superapp" que a OpenAI vem telegrafando desde o trimestre passado, e a VP de Research Amelia Glaese chamou de "nosso modelo mais forte até agora em coding". O modelo envia para ChatGPT Plus, Pro, Business, e Enterprise imediatamente, com GPT-5.5 Pro indo para os três tiers superiores. A Axios reporta que o codinome interno é "Spud".

Os números do título são Terminal-Bench 2.0 em 82,7% (acima de 75,1% do GPT-5.4) e a avaliação interna de coding Expert-SWE em 73,1% (acima de 68,5%). O enquadramento do VentureBeat capturou a comparação mais interessante: no Terminal-Bench 2.0 especificamente, o GPT-5.5 supera por pouco o Mythos Preview da Anthropic. Isso é notável porque o Mythos é o modelo restrito em preview de pesquisa que a Anthropic não tornou geralmente disponível; o GPT-5.5 está sendo enviado a usuários do ChatGPT hoje. A reivindicação prática que realmente importa para a economia de serving está nas notas de release da OpenAI: o GPT-5.5 iguala a latência por-token do GPT-5.4 enquanto completa tarefas com menos tokens. Se isso segurar em workloads de produção, é uma melhoria direta de custo-por-completação no mesmo teto de throughput.

A cadência é o padrão. O GPT-5.4 foi enviado em 16 de abril, o mesmo dia em que o Opus 4.7 da Anthropic entrou em disponibilidade geral. O GPT-5.5 é 23 de abril, uma semana depois, superando por pouco o Mythos num benchmark que ele mesmo não está disponível geralmente. O tempo de release de modelos que costumava ser em meses agora é em semanas, e cada release aterrissa com benchmarks seletivos que posicionam contra o competidor que lançou mais recentemente. Para qualquer um construindo em cima da OpenAI, a velocidade corta em dois sentidos: novas capacidades chegam mais rápido, e o modelo contra o qual você construiu duas semanas atrás pode não ser mais a opção padrão quando seus usuários batem.

Três notas concretas para builders. Um, se você envia fluxos agênticos no ChatGPT ou API, a reivindicação de eficiência por-token é a alavanca para testar contra sua workload primeiro; Terminal-Bench 2.0 e Expert-SWE não são sua workload. Dois, o enquadramento de "coding e uso de ferramentas de ponta a ponta" no release da OpenAI (escrever e debugar código, pesquisar online, analisar dados, criar documentos e planilhas, operar software, mover entre ferramentas até uma tarefa terminar) coincide com a convergência para a superfície de features Claude Code/Gemini CLI/Cursor que temos rastreado o mês todo. Três, disciplina de versionamento importa mais agora. GPT-5.4 para GPT-5.5 é um delta de sete dias. Fixe a string de modelo da qual você depende.

OpenAI envia GPT-5.5 ('Spud') uma semana depois do GPT-5.4: 82,7% no Terminal-Bench 2.0 superando por pouco o Mythos Preview, 73,1% no Expert-SWE, iguala latência do GPT-5.4 com menos tokens

Mais notícias