Cloudflare livre Infire : inférence prefill/décode séparée pour modèles à trillion de paramètres

Cloudflare a mis en production un moteur d'inférence LLM maison sur tout son réseau mondial. Le moteur s'appelle Infire, le choix architectural en dessous c'est la désagrégation prefill/décode — séparer le traitement de l'entrée et la génération de sortie sur des machines différentes optimisées pour chacune — et le résultat, c'est que Cloudflare héberge maintenant des modèles ouverts à l'échelle du trillion de paramètres comme Kimi K2.5 (1T+ params, ~560 Go sur disque) en bordure du réseau, à côté de Llama 4 Scout. L'intéressant n'est pas le lancement; c'est qu'un des plus gros CDN a rejoint le petit groupe d'opérateurs qui roulent leur propre stack d'inférence non-vLLM, non-SGLang à grande échelle.

Le split P/D est le choix architectural porteur. Le prefill est borné par le compute : il traite le prompt d'entrée et remplit le cache KV. Le décode est borné par la mémoire : il lit le cache KV et émet un token à la fois. Mettre les deux étapes sur la même machine, ça veut dire que celle qui n'est pas le goulot gaspille du hardware. Infire sépare les deux sur des machines optimisées pour chaque profil. Par-dessus, Infire combine parallélisme pipeline (shardage entre GPUs par couche du modèle) et parallélisme tenseur (shardage à l'intérieur des couches par tenseur), avec l'objectif explicite d'empêcher les GPUs d'une étape de starver pendant qu'une autre exécute. Les empreintes hardware sont concrètes : Kimi K2.5 demande au minimum 8 H100 (le modèle fait ~560 Go; le reste de la HBM va au cache KV); Llama 4 Scout entre sur 2 H200 avec encore beaucoup de capacité de contexte.

La deuxième pièce, c'est Unweight, le système de compression de poids de Cloudflare qui réduit les poids des modèles de 15 à 22 % sans perte de précision, ce qui diminue la quantité de données déplacées entre GPUs pendant l'inférence. À l'échelle du trillion, le mouvement des poids est une vraie dimension de coût — chaque point de pourcentage en moins sur les octets chargés, c'est du wattage réel et de la latence réelle. La grande image : Cloudflare se positionne pour héberger des modèles ouverts à l'échelle frontière comme un palier d'infrastructure générique, de la même façon qu'ils hébergent des actifs statiques. Si Kimi K2.5 et Llama 4 Scout roulent sur Cloudflare avec des chiffres de cold start et de TTFT crédibles, le calcul coût-par-token contre la location de ton propre cluster H100 change. L'économie des wrappers gagne un nouveau substrat, et « où je fais rouler ce modèle 1T » cesse d'être un projet d'approvisionnement.

Si tu livres avec des modèles ouverts à l'échelle frontière et que tu ne veux pas opérer un parc GPU, Workers AI / Infire est dans une catégorie compétitive différente qu'il y a un an — teste la même charge de travail là versus ton fournisseur actuel, avec TTFT et coût par token comme la comparaison qui compte, surtout pour les traces longues d'agents codants. Si tu opères ton propre stack d'inférence, le pattern de désagrégation P/D est le take-away; parallélisme pipeline + tenseur en tandem (au lieu d'en choisir un) est la note d'implémentation. Unweight n'est pas ouvert pour ce que j'en vois, donc la compression de poids reste une décision build-or-buy. La pression compétitive sur vLLM et SGLang pour rester au top vient de devenir plus concrète.

Cloudflare livre Infire : inférence prefill/décode séparée pour modèles à trillion de paramètres

Plus de nouvelles