Los modelos de razonamiento ocupan una GPU 30 segundos — esa es la cuenta, no los tokens

El costo de un modelo de razonamiento no se mide en tokens. Se mide en los segundos de reloj que tu GPU queda anclada a una sola solicitud. Un modelo estándar predice en aproximadamente un segundo; un modelo de razonamiento puede sostener la misma GPU durante treinta segundos mientras avanza por pensamiento intercalado, llamadas a herramientas y auto-corrección. Esa proporción es la cuenta real — tu capacidad de usuarios simultáneos cae 30×, tu latencia P95 se vuelve no determinista, y el número de tokens-por-millón en tu factura es el síntoma, no la enfermedad.

Inference scaling significa que el costo deja de ser lineal con el tamaño de entrada. El artículo de TDS recorre dónde aparece: la descomposición en cadena de pensamiento quemando miles de tokens en tareas simples (el clásico bucle de "quema tokens para sumar 1 a 9900"), la ocupación de memoria GPU estirándose de sub-segundo a 30s+, y la varianza de latencia P95 que "hace que las aplicaciones se sientan rotas" por timeouts. Caso concreto del artículo: mover trabajo simple fuera de un modelo de razonamiento ahorró $2,030/día — $3,000 a $970, un recorte del 68% — sin afectar calidad de tarea. La lección es que tu modelo de razonamiento no es el barato para todo; es el caro que vale la pena a veces.

Por esto cada proveedor de frontera está vendiendo routing como producto ahora. Claude Sonnet 4.5 + Haiku 4.5, OpenAI o3 + gpt-4.1, Gemini 2.5 Pro + Flash — el nivel de routing existe porque la forma de costo de razonamiento vs no-razonamiento es genuinamente distinta, y tratar de esconder eso a los devs solo produce facturas feas. El reframing interesante del artículo: deja de medir "dólares por millón de tokens" y empieza a medir "costo por tarea exitosa". Un modelo de razonamiento que resuelve un problema en 40K tokens pero come dos reintentos es más caro que un modelo más pequeño que clava la respuesta en 2K. Tu factura no muestra esto; tu ratio de tareas completadas, sí.

Tres cosas que puedes hacer esta semana. Primero: clasifica tu tráfico en Usar / Quizás / Evitar para razonamiento — matemática, planificación, debugging multi-paso son Usar; extracción, formateo, búsquedas simples son Evitar. Segundo: pon topes duros en tokens de razonamiento, reintentos y tiempo total de solicitud para que un bucle de trampa-de-pensamiento no se coma tu presupuesto en una noche. Tercero: registra por solicitud `tokens × segundos-reloj × éxito-bool` y mira la distribución de costo-por-tarea-exitosa, no el costo promedio por token. El modelo de razonamiento es una herramienta real — solo que no es la herramienta correcta el setenta por ciento de las veces que estarás tentado a alcanzarla.

Los modelos de razonamiento ocupan una GPU 30 segundos — esa es la cuenta, no los tokens

Más noticias