GPT-5.5 se lanza al 2× del precio API de GPT-5.4 — Terminal-Bench 2.0 al 82,7%, pero Claude Opus 4.7 todavía lidera MCP Atlas

OpenAI lanzó GPT-5.5 el 23 de abril, con acceso API abriéndose el 24 de abril. El encuadre: "una nueva clase de inteligencia para trabajo real y para potenciar agentes," diseñado para planear, usar herramientas, auto-verificar y trabajar a través de tareas de forma independiente. El modelo es el primer modelo base re-entrenado desde GPT-4.5, co-diseñado con los sistemas rack-scale GB200 y GB300 NVL72 de NVIDIA. Se está desplegando a usuarios Plus, Pro, Business y Enterprise en ChatGPT y Codex. El precio es la parte para leer con cuidado: GPT-5.5 standard es US$5 por millón de tokens input y US$30 por millón de tokens output, exactamente 2× las tarifas de GPT-5.4. GPT-5.5 Pro, con compute paralelo en tiempo de test, es US$30 input / US$180 output. La defensa de OpenAI por la tarifa duplicada es que GPT-5.5 completa las mismas tareas de Codex con menos tokens — el laboratorio de tests independiente Artificial Analysis validó que los costos efectivos aterrizan en cerca de 20% más alto en vez de 2×.

Los benchmarks explican por qué OpenAI está dispuesta a cobrar el doble. En Terminal-Bench 2.0 — workflows de línea de comandos que requieren planificación y coordinación de herramientas en un entorno sandboxeado — GPT-5.5 pega 82,7%, contra 75,1% de GPT-5.4 y 69,4% de Claude Opus 4.7. En SWE-Bench Pro (resolución de issues de GitHub), llega a 58,6%. En Expert-SWE — el benchmark interno de OpenAI sobre tareas con mediana de 20 horas de completion humana — 73,1% vs 68,5% de GPT-5.4. El salto más impactante es MRCR v2 a un millón de tokens, un benchmark de recuperación en contexto largo, donde GPT-5.5 pega 74,0% contra 36,6% de GPT-5.4 — más o menos un duplicado. Los números honestos también están en la tabla: en MCP Atlas, el benchmark de Scale AI sobre uso de herramientas en Model Context Protocol, Claude Opus 4.7 lidera al 79,1% y OpenAI no reportó un score de GPT-5.5, dejando la celda en blanco en su propia tabla publicada. GPT-5.5 Pro lidera BrowseComp (navegación web) al 90,1%.

Tres patrones se conectan. Primero, el lanzamiento de GPT-5.5 el 23 de abril es la causa del cluster de noticias de precios de esta semana: GitHub anunció el cambio de Copilot a AI Credits por uso el 28 de abril, citando explícitamente los costos de inferencia que se disparan. Microsoft hace pagar a sus usuarios por los mismos tokens que OpenAI cobra al doble. Segundo, las matemáticas de comparación a 10 millones de tokens output por mes son concretas — GPT-5.5 standard es US$300, Claude Opus 4.7 es US$250, un premium del 20% que sólo se paga si el reclamo de GPT-5.5 de "menos iteraciones de tarea" se sostiene para tu workload específico. La cifra del 20% de Artificial Analysis es el promedio poblacional, no la respuesta por tarea. Tercero, la disposición de OpenAI a publicar una tabla de benchmarks donde Claude Opus 4.7 lidera MCP Atlas — y a dejar el score de GPT-5.5 en blanco — es la revelación más útil del lanzamiento. Señala que en uso de herramientas por protocolo Anthropic todavía está adelante, y la ventaja de GPT-5.5 está en recuperación de contexto largo y tareas agentic de extremo a extremo, no en integraciones MCP específicamente.

Para los builders, tres cosas concretas. Primero, no cambies de GPT-5.4 o Claude Opus 4.7 a GPT-5.5 con las matemáticas del marketing. Corré tu workload específico por ambos durante dos semanas, medí tokens-por-tarea-completada y calculá el costo efectivo desde tus propios números — no desde el promedio poblacional del 20%. Segundo, si tu aplicación se apoya en llamados a herramientas estilo MCP, Claude Opus 4.7 todavía lidera el benchmark público y la ausencia silenciosa de OpenAI en MCP Atlas es la señal. La convergencia MCP que venimos cubriendo esta semana (conectores Anthropic, Agents CLI de Google, contexto de agente Slack) todavía no es una elección resuelta a favor de GPT-5.5. Tercero, OpenAI dice que más del 85% de sus empleados usan Codex semanalmente; esperá que la propia superficie de producto de OpenAI sea el deployer más agresivo de GPT-5.5, lo que significa que los modos de falla (el problema del atractor goblin que cubrimos ayer es uno) van a salir a flote ahí primero. Mirá lo que OpenAI misma lanza antes de comprometerte.

GPT-5.5 se lanza al 2× del precio API de GPT-5.4 — Terminal-Bench 2.0 al 82,7%, pero Claude Opus 4.7 todavía lidera MCP Atlas

Más noticias