Moonshot AI separa prefill e decode de LLM entre datacenters, corta TTFT 50% em Ethernet comum

Servir um LLM sempre foi um problema confinado a um rack, por um motivo. Fazer prefill de uma requisição de 32K tokens em uma instância 8×H200 gera KV cache a cerca de 60 Gbps. Esse número obriga a manter prefill e decode no mesmo rack, ou no máximo no mesmo datacenter, porque só tecido RDMA move esse tipo de tráfego sem sufocar. O custo: você paga por compute denso e memória de alta largura de banda na mesma GPU, mesmo que a fase decode precise principalmente da segunda. Moonshot AI e Tsinghua, no artigo PrfaaS (arxiv 2604.15039), argumentam que essa hipótese de colocação merece ser revisitada.

PrfaaS, abreviação de prefill-as-a-service, manda prefills longos para clusters H200 dedicados, depois despacha o KV cache resultante por Ethernet comum para clusters de decode locais rodando H20 mais baratos. Três coisas tornam a transferência viável. Primeiro, atenção híbrida: Ring-2.5-1T e MiMo-V2-Flash comprimem o estado KV cerca de 36× versus equivalentes de atenção densa, derrubando o egress por requisição de cerca de 60 Gbps para 5 Gbps. Segundo, o pipelining por camada sobrepõe geração e transmissão, então a transferência começa antes do prefill terminar. Terceiro, TCP multi-conexão com monitoramento de congestão satura a largura VPC disponível (cerca de 13 Gbps sustentados num link de 100 Gbps). O roteamento é por comprimento: menos de 19,4K tokens fica local, mais longo vai para prefill remoto onde a economia de compute justifica a ida e volta.

Os números do estudo de caso são difíceis de ignorar. Em 32 H200 prefill mais 64 H20 decode, PrfaaS atinge 54% mais throughput que uma baseline homogênea H200, e 32% mais que uma configuração heterogênea ingênua. O TTFT médio cai 50%, o P90 cai 64%. Extrapolado para um datacenter de 10.000 GPUs, a largura de banda inter-cluster agregada chega a 1,8 Tbps. O argumento arquitetural é maior que os benchmarks: serviço LLM geo-distribuído estava travado no transporte KV, e se atenção híbrida mais TCP pipelineado basta para passar disso, o espaço de design de onde suas GPUs de prefill moram abre de uma vez. Prefill numa região, decode em outra, silício mais barato em todo lugar.

Se você roda inferência de contexto longo em escala, duas coisas desse artigo valem medir contra seu próprio stack. Um, o limiar de roteamento de 19,4K tokens não é mágico; é o ponto onde o diferencial de compute específico do PrfaaS compensa, e seu número vai ser diferente. Dois, as taxas de compressão de atenção híbrida dependem inteiramente de qual família de modelo você serve; modelos de atenção densa não ganham 36× de graça. Mas a afirmação mais ampla — que Ethernet comum basta para transporte KV uma vez que o cache encolheu — é o tipo de resultado que muda o que "preso ao datacenter" significa para servir inferência.

Moonshot AI separa prefill e decode de LLM entre datacenters, corta TTFT 50% em Ethernet comum

Mais notícias