Una sola GPU H100 ejecutando Llama 70B alcanza 92% de utilización durante prefill, luego se desploma a 28% durante decode—todo en milisegundos de la misma solicitud. Esto no es un bug, es el desajuste fundamental entre cómo funcionan los LLM y cómo los desplegamos. Prefill procesa prompts completos en paralelo a través de multiplicaciones masivas de matrices que saturan los tensor cores. Decode genera tokens uno por uno mediante búsquedas en memoria que apenas tocan los recursos de cómputo. Sin embargo, la mayoría de equipos ejecutan ambas fases en pools idénticos de GPU, pagando por 64 H100 mientras obtienen trabajo significativo de tal vez 20.

La inferencia desagregada, pionera en el paper DistServe 2024 de UC San Diego, divide estas cargas de trabajo en hardware separado optimizado para cada fase. El enfoque no es teórico—Perplexity lo ejecuta en producción, Meta y LinkedIn sirven tráfico con él, y NVIDIA construyó su framework Dynamo alrededor de esto. vLLM, SGLang, y TensorRT-LLM todos soportan desagregación nativamente. La promesa es una reducción de costos de 2-4x al dimensionar el cómputo para los requerimientos reales de carga de trabajo en lugar de escenarios del peor caso.

El panorama más amplio de optimización de inferencia muestra este cambio arquitectural ganando momentum más allá de papers académicos. Mientras cubrí las afirmaciones de Cursor's Warp Decode sobre aceleraciones de 1.8x en abril—que carecían de prueba concreta—la inferencia desagregada entrega mejoras de costo medibles con despliegues de producción que realmente puedes verificar. El LLM Inference Handbook nota que el prefill y decode colocalizados crean conflictos de programación donde el prefill intensivo en cómputo bloquea el decode limitado por memoria, aumentando tanto el time-to-first-token como la latencia inter-token.

Para desarrolladores ejecutando inferencia a escala, la desagregación requiere repensar tu arquitectura de despliegue pero ofrece ahorros reales de costo. Si estás quemando presupuestos H100 en cargas de inferencia, el desajuste de utilización de hardware probablemente te está costando más que el esfuerzo de ingeniería para implementar clusters separados de prefill y decode.