Servir un LLM a toujours été un problème confiné à un seul rack, pour une raison. Faire le prefill d'une requête de 32K tokens sur une instance 8×H200 génère du KV cache à environ 60 Gbps. Ce chiffre force à garder prefill et décode dans le même rack, ou au mieux dans le même datacenter, parce que seul le tissu RDMA peut transporter un tel flux sans s'étouffer. Le coût: tu paies pour du compute dense et de la mémoire haute-bande dans le même GPU, même si la phase décode a surtout besoin de la deuxième. Moonshot AI et Tsinghua, dans leur article PrfaaS (arxiv 2604.15039), soutiennent que cette hypothèse de colocation mérite d'être remise en question.

PrfaaS, pour prefill-as-a-service, envoie les longs prefills vers des clusters H200 dédiés, puis expédie le KV cache résultant sur de l'Ethernet standard vers des clusters de décode locaux avec des H20 moins coûteux. Trois éléments rendent le transfert faisable. Premièrement, l'attention hybride: Ring-2.5-1T et MiMo-V2-Flash compressent l'état KV d'environ 36× versus les équivalents en attention dense, ce qui fait tomber l'egress par requête d'environ 60 Gbps à 5 Gbps. Deuxièmement, le pipelining par couche recouvre génération et transmission, donc le transfert commence avant la fin du prefill. Troisièmement, TCP multi-connexion avec monitoring de congestion saturent la bande passante VPC disponible (environ 13 Gbps soutenus sur un lien 100 Gbps). Le routage est basé sur la longueur: moins de 19,4K tokens reste local, plus long part vers un prefill distant où les économies de compute justifient l'aller-retour.

Les chiffres de l'étude de cas sont durs à ignorer. Sur 32 H200 prefill plus 64 H20 décode, PrfaaS atteint 54% de débit en plus versus une baseline homogène H200, et 32% de plus qu'une configuration hétérogène naïve. Le TTFT moyen chute de 50%, le P90 de 64%. Extrapolé à un datacenter de 10 000 GPU, la bande passante inter-cluster agrégée atteint 1,8 Tbps. L'argument architectural dépasse les benchmarks: le service LLM géo-distribué était bloqué sur le transport KV, et si attention hybride plus TCP pipeliné suffit à passer outre, l'espace de conception pour l'emplacement de tes GPU prefill s'ouvre d'un coup. Prefill dans une région, décode dans une autre, du silicium moins cher partout.

Si tu roules de l'inférence long-contexte à l'échelle, deux choses dans cet article valent la peine d'être mesurées contre ta propre stack. Un, le seuil de routage à 19,4K tokens n'est pas magique; c'est le point où le différentiel de compute spécifique de PrfaaS devient rentable, pis ton chiffre à toi sera différent. Deux, les taux de compression de l'attention hybride dépendent entièrement de quelle famille de modèle tu sers; les modèles à attention dense n'ont pas 36× gratis. Mais l'affirmation plus large — que l'Ethernet standard suffit pour le transport KV une fois le cache réduit — c'est le genre de résultat qui change ce que signifie « lié au datacenter » pour servir de l'inférence.