Cloudflare lanza Infire: inferencia con prefill/decode separados para modelos de un trillón de parámetros

Cloudflare ha puesto un motor de inferencia LLM propio en producción a lo largo de su red global. El motor se llama Infire, la elección arquitectónica de fondo es la desagregación prefill/decode — separar el procesamiento de entrada y la generación de salida en máquinas distintas optimizadas para cada uno — y el resultado es que Cloudflare ahora hospeda modelos abiertos a escala de un trillón de parámetros como Kimi K2.5 (1T+ params, ~560GB en disco) en el borde, junto con Llama 4 Scout. Lo interesante no es el lanzamiento; es que uno de los CDN más grandes se ha unido al grupo pequeño de operadores que corren su propio stack de inferencia no-vLLM, no-SGLang a escala.

El split P/D es la elección arquitectónica que carga el peso. El prefill está limitado por compute: procesa el prompt de entrada y llena el caché KV. El decode está limitado por memoria: lee el caché KV y emite un token a la vez. Poner ambas etapas en la misma máquina significa que la que no es el cuello de botella está desperdiciando hardware. Infire separa las dos en máquinas optimizadas para cada perfil. Encima, Infire combina paralelismo pipeline (shardear entre GPUs por capa del modelo) con paralelismo tensor (shardear dentro de capas por tensor), con el objetivo explícito de prevenir que los GPUs de una etapa pasen hambre mientras otra etapa ejecuta. Las huellas de hardware son concretas: Kimi K2.5 necesita al menos 8 H100 (el modelo es ~560GB; el resto de HBM va al caché KV); Llama 4 Scout entra en 2 H200 con capacidad de contexto sustancial sobrando.

La segunda pieza es Unweight, el sistema de compresión de pesos de Cloudflare que reduce los pesos del modelo en 15-22% sin pérdida de precisión, recortando la cantidad de datos movidos entre GPUs durante inferencia. A escala de trillón, el movimiento de pesos es una dimensión de costo real — cada punto porcentual de menos en los bytes cargados es watts reales y latencia real. La imagen grande: Cloudflare se está posicionando para hospedar modelos abiertos a escala frontera como un nivel de infraestructura genérico, de la misma forma que hospedan activos estáticos. Si Kimi K2.5 y Llama 4 Scout corren en Cloudflare con números de cold start y TTFT creíbles, el cálculo costo-por-token contra rentar tu propio cluster H100 cambia. La economía de wrappers gana un nuevo sustrato, y "dónde corro este modelo 1T" deja de ser un proyecto de adquisición.

Si entregas con modelos abiertos de escala frontera y no quieres operar un pool GPU, Workers AI / Infire está en una categoría competitiva diferente a la de hace un año — prueba la misma carga de trabajo ahí versus tu proveedor actual, con TTFT y costo-por-token como la comparación que importa, especialmente para trazas largas de agentes de código. Si operas tu propio stack de inferencia, el patrón de desagregación P/D es el take-away; paralelismo pipeline + tensor en tándem (en vez de elegir uno) es la nota de implementación. Unweight no está abierto hasta donde puedo ver, así que la compresión de pesos sigue siendo una decisión build-or-buy. La presión competitiva sobre vLLM y SGLang para mantenerse en lo mejor de la clase acaba de volverse más real.

Cloudflare lanza Infire: inferencia con prefill/decode separados para modelos de un trillón de parámetros

Más noticias