GPT-5.5 Instant da OpenAI: AIME 2025 81,2, MMMU-Pro 76,0, default no ChatGPT

A OpenAI lançou GPT-5.5 Instant hoje como novo modelo default do ChatGPT, substituindo GPT-5.3 Instant. Os movimentos de benchmark são amplos o bastante para flaggar: AIME 2025 sobe de 65,4 para 81,2 — um salto de 15,8 pontos num benchmark math held-out projetado para resistir a contaminação — e MMMU-Pro raciocínio multimodal levanta de 69,2 para 76,0. O modelo está na API como `chat-latest`; 5.3 fica disponível a users pagos por uma janela de sunset de três meses. Os detalhes de pricing, benchmarks de latência e notas de arquitetura não foram divulgados na cobertura do lançamento, o que põe a leitura eval substantiva direto sobre os números de benchmark públicos que a OpenAI escolheu destacar.

O sufixo «Instant» continua a estratégia de tier da OpenAI desde a geração GPT-5: as variantes Instant são o default latency-optimized para tráfego ChatGPT consumer, com as variantes Thinking reservadas para workloads de raciocínio deliberado. Se 5.5 Instant é um backbone fully retrained ou um pass post-training melhorado sobre os pesos 5.3 não foi divulgado — e o salto AIME de 16 pontos poderia razoavelmente vir de qualquer um dos dois. AIME 2025 foi selecionado parcialmente porque os problemas do teste não foram liberados até depois da maioria dos cutoffs de pretraining, então a contaminação é implausível; isso significa que o ganho é capacidade real de raciocínio, não memorização. O número MMMU-Pro conta uma história parecida no lado multimodal: 76,0 fecha o gap para território GPT-5 Thinking por uma fração do custo de latência. Para builders que estavam roteando queries multimodais simples pelo Gemini 2.5 Flash porque a visão do GPT-5.3 Instant era o ponto fraco, o cálculo muda.

A leitura ecossistema é que a OpenAI está convergindo o gap Instant-para-Thinking deliberadamente. O split Sonnet 4.5 → Opus da Anthropic tem a mesma forma mas um delta menor; o Gemini 2.5 Flash vs Pro do Google é mais largo. Empurrando o default Instant para AIME 81 e MMMU-Pro 76, a OpenAI faz o caso de que você pode rodar tráfego chat consumer no tier barato sem forçar users a saber qual modo escolher. Para builders shipando experiências chat na API, o alias `chat-latest` é o sinal relevante — se você estava pinando a uma versão específica de modelo por estabilidade, espere que as promoções de modelo default continuem movendo o chão debaixo de você, e orçamente re-runs de eval na sua cadência de release. O sunset de três meses no 5.3 é o pace padrão da OpenAI; se seu harness de eval depende de um baseline 5.3 congelado, você tem um relógio agora.

Movimento prático: re-eval seus top prompts de tráfego no `chat-latest` esta semana. Se seus consumers downstream rankearam GPT-5.3 Instant contra Sonnet 4.5 ou Gemini 2.5 Flash, os novos números podem mudar sua lógica de routing. Os use cases math e multimodais ganham o maior lift; tool-calling e completion de texto puro não foram benchmarkados publicamente ainda, então teste os seus. A janela de três meses para 5.3 dá pra um rollout controlado mas não pra adiar — comece a comparação agora, ou vai fazer a troca sob pressão de prazo com a depreciação chegando. Para builders do lado consumer ChatGPT (GPTs custom, Apps SDK), o modelo subjacente agora é mais forte por default e seu prompt engineering anterior pode precisar de scaffolding mais leve.

GPT-5.5 Instant da OpenAI: AIME 2025 81,2, MMMU-Pro 76,0, default no ChatGPT

Mais notícias