GPT-5.5 Instant de OpenAI: AIME 2025 81,2, MMMU-Pro 76,0, default en ChatGPT

OpenAI lanzó GPT-5.5 Instant hoy como nuevo modelo default de ChatGPT, reemplazando GPT-5.3 Instant. Los movimientos de benchmark son lo bastante amplios para flaggear: AIME 2025 sube de 65,4 a 81,2 — un salto de 15,8 puntos en un benchmark math held-out diseñado para resistir contaminación — y MMMU-Pro razonamiento multimodal levanta de 69,2 a 76,0. El modelo está en la API como `chat-latest`; 5.3 queda disponible a users pagos por una ventana de sunset de tres meses. Los detalles de pricing, benchmarks de latencia y notas de arquitectura no fueron divulgados en la cobertura del lanzamiento, lo que pone la lectura eval substantiva directamente sobre los números de benchmark públicos que OpenAI eligió destacar.

El sufijo «Instant» continúa la estrategia de tier de OpenAI desde la generación GPT-5: las variantes Instant son el default latency-optimized para tráfico ChatGPT consumer, con las variantes Thinking reservadas para workloads de razonamiento deliberado. Si 5.5 Instant es un backbone fully retrained o un pass post-training mejorado sobre los pesos 5.3 no se divulgó — y el salto AIME de 16 puntos podría venir razonablemente de cualquiera. AIME 2025 fue seleccionado parcialmente porque los problemas del test no se liberaron hasta después de la mayoría de cutoffs de pretraining, así que la contaminación es implausible; eso significa que la ganancia es capacidad real de razonamiento, no memorización. El número MMMU-Pro cuenta una historia similar del lado multimodal: 76,0 cierra el gap hacia territorio GPT-5 Thinking a una fracción del costo de latencia. Para builders que rutearon queries multimodales simples por Gemini 2.5 Flash porque la visión de GPT-5.3 Instant era el punto débil, el cálculo cambia.

La lectura ecosystem es que OpenAI está convergiendo el gap Instant-a-Thinking deliberadamente. El split Sonnet 4.5 → Opus de Anthropic tiene la misma forma pero un delta más chico; el Gemini 2.5 Flash vs Pro de Google es más amplio. Al empujar el default Instant a AIME 81 y MMMU-Pro 76, OpenAI hace el caso de que podés correr tráfico chat consumer en el tier barato sin forzar a users a saber qué modo elegir. Para builders que shipean experiencias chat en la API, el alias `chat-latest` es la señal relevante — si pineabas a una versión específica de modelo por estabilidad, esperá que las promociones de modelo default sigan moviendo el piso debajo tuyo, y presupuestá re-runs de eval en tu cadencia de release. El sunset de tres meses sobre 5.3 es el pace estándar de OpenAI; si tu harness de eval depende de un baseline 5.3 congelado, tenés un reloj ahora.

Movida práctica: re-eval tus top prompts de tráfico sobre `chat-latest` esta semana. Si tus consumers downstream rankearon GPT-5.3 Instant contra Sonnet 4.5 o Gemini 2.5 Flash, los nuevos números podrían cambiar tu lógica de routing. Los use cases math y multimodales reciben el lift más grande; tool-calling y completion de texto puro no fueron benchmarkeados públicamente todavía, así que probá los tuyos. La ventana de tres meses para 5.3 alcanza para un rollout controlado pero no para diferirlo — arrancá la comparación ahora, o vas a hacer el switch bajo presión de deadline con la depreciación encima. Para builders del lado consumer de ChatGPT (GPTs custom, Apps SDK), el modelo subyacente ahora es más fuerte por default y tu prompt engineering anterior podría necesitar scaffolding más liviano.

GPT-5.5 Instant de OpenAI: AIME 2025 81,2, MMMU-Pro 76,0, default en ChatGPT

Más noticias