Servir un LLM siempre ha sido un problema confinado a un solo rack, por una razón. Hacer prefill de una solicitud de 32K tokens en una instancia 8×H200 genera KV cache a unos 60 Gbps. Esa cifra obliga a mantener prefill y decode en el mismo rack, o a lo sumo en el mismo datacenter, porque solo tejido RDMA puede mover ese tráfico sin ahogarse. El costo: pagas por compute denso y memoria de alto ancho de banda en la misma GPU, aunque la fase decode principalmente necesita solo la segunda. Moonshot AI y Tsinghua, en su artículo PrfaaS (arxiv 2604.15039), argumentan que esta suposición de colocación merece revisión.

PrfaaS, abreviatura de prefill-as-a-service, envía los prefills largos a clusters H200 dedicados, luego despacha el KV cache resultante sobre Ethernet estándar hacia clusters de decode locales con H20 más baratos. Tres elementos hacen viable la transferencia. Primero, atención híbrida: Ring-2.5-1T y MiMo-V2-Flash comprimen el estado KV unos 36× frente a equivalentes de atención densa, bajando el egress por solicitud de unos 60 Gbps a 5 Gbps. Segundo, el pipelining por capas superpone generación y transmisión, así que la transferencia comienza antes de que termine el prefill. Tercero, TCP multi-conexión con monitoreo de congestión satura el ancho de banda VPC disponible (unos 13 Gbps sostenidos en un enlace de 100 Gbps). El routing se basa en longitud: menos de 19,4K tokens queda local, más largo se va a prefill remoto donde el ahorro de compute justifica el viaje.

Los números del caso de estudio son difíciles de ignorar. En 32 H200 prefill más 64 H20 decode, PrfaaS alcanza 54% más throughput que una baseline homogénea H200, y 32% más que una configuración heterogénea ingenua. El TTFT medio cae 50%, el P90 cae 64%. Extrapolado a un datacenter de 10 000 GPU, el ancho de banda inter-cluster agregado llega a 1,8 Tbps. El argumento arquitectónico es mayor que los benchmarks: el servicio LLM geo-distribuido estaba bloqueado en el transporte KV, y si atención híbrida más TCP pipelineado basta para superarlo, el espacio de diseño sobre dónde viven tus GPU de prefill se abre de golpe. Prefill en una región, decode en otra, silicio más barato en todas partes.

Si corres inferencia de contexto largo a escala, dos cosas de este artículo valen la pena medir contra tu propio stack. Uno, el umbral de routing de 19,4K tokens no es mágico; es el punto donde el diferencial de compute específico de PrfaaS se vuelve rentable, y tu número será distinto. Dos, las tasas de compresión de atención híbrida dependen enteramente de qué familia de modelo estés sirviendo; los modelos de atención densa no obtienen 36× gratis. Pero la afirmación más amplia — que Ethernet estándar basta para transporte KV una vez reducido el cache — es el tipo de resultado que cambia lo que "atado al datacenter" significa para servir inferencia.