OpenAI envía GPT-5.5 ('Spud') una semana después de GPT-5.4: 82,7% en Terminal-Bench 2.0 superando apenas a Mythos Preview, 73,1% en Expert-SWE, iguala latencia de GPT-5.4 con menos tokens

OpenAI envió GPT-5.5 hoy, siete días después de GPT-5.4 — la cadencia de lanzamiento más rápida que la compañía ha corrido en la serie 5. Greg Brockman lo enmarcó como un paso hacia la tesis "superapp" que OpenAI ha estado telegrafiando desde el trimestre pasado, y la VP de Research Amelia Glaese lo llamó "nuestro modelo más fuerte hasta ahora en coding". El modelo se envía a ChatGPT Plus, Pro, Business, y Enterprise inmediatamente, con GPT-5.5 Pro yendo a los tres tiers superiores. Axios reporta que el nombre clave interno es "Spud".

Los números del titular son Terminal-Bench 2.0 en 82,7% (arriba de 75,1% de GPT-5.4) y la eval de coding interna Expert-SWE en 73,1% (arriba de 68,5%). El enmarque de VentureBeat capturó la comparación más interesante: en Terminal-Bench 2.0 específicamente, GPT-5.5 supera apenas a Mythos Preview de Anthropic. Eso es notable porque Mythos es el modelo restringido en preview de investigación que Anthropic no ha hecho generalmente disponible; GPT-5.5 se envía a usuarios de ChatGPT hoy. La reclamación práctica que realmente importa para la economía de serving está en las notas de release de OpenAI: GPT-5.5 iguala la latencia por-token de GPT-5.4 mientras completa tareas con menos tokens. Si eso aguanta en workloads de producción, es una mejora directa de costo-por-completación al mismo techo de throughput.

La cadencia es el patrón. GPT-5.4 se envió el 16 de abril, el mismo día que Opus 4.7 de Anthropic entró en disponibilidad general. GPT-5.5 es 23 de abril, una semana después, superando apenas a Mythos en un benchmark que en sí mismo no está disponible generalmente. El tempo de lanzamiento de modelos que solía ser meses ahora es semanas, y cada release aterriza con benchmarks selectivos que posicionan contra el competidor que sacó más recientemente. Para cualquiera construyendo sobre OpenAI, la velocidad corta en ambos sentidos: nuevas capacidades llegan más rápido, y el modelo contra el que construiste hace dos semanas puede ya no ser la opción por defecto cuando tus usuarios pegan.

Tres notas concretas para builders. Uno, si envías flujos agénticos en ChatGPT o API, la reclamación de eficiencia por-token es la palanca para probar contra tu workload primero; Terminal-Bench 2.0 y Expert-SWE no son tu workload. Dos, el enmarque de "coding y uso de herramientas de extremo a extremo" en el release de OpenAI (escribir y debuggear código, investigar en línea, analizar datos, crear documentos y hojas de cálculo, operar software, moverse entre herramientas hasta que una tarea termine) coincide con la convergencia hacia la superficie de features Claude Code/Gemini CLI/Cursor que hemos estado rastreando todo el mes. Tres, la disciplina de versionado importa más ahora. GPT-5.4 a GPT-5.5 es un delta de siete días. Fija la cadena de modelo de la que dependes.

OpenAI envía GPT-5.5 ('Spud') una semana después de GPT-5.4: 82,7% en Terminal-Bench 2.0 superando apenas a Mythos Preview, 73,1% en Expert-SWE, iguala latencia de GPT-5.4 con menos tokens

Más noticias