Un seul GPU H100 qui fait tourner Llama 70B atteint 92% d'utilisation pendant le prefill, puis s'effondre à 28% pendant le decode—le tout en quelques millisecondes de la même requête. C'est pas un bug, c'est le décalage fondamental entre comment les LLM fonctionnent et comment on les déploie. Le prefill traite des prompts entiers en parallèle via des multiplications matricielles massives qui saturent les tensor cores. Le decode génère des tokens un par un via des recherches en mémoire qui touchent à peine aux ressources de calcul. Pourtant, la plupart des équipes font tourner les deux phases sur des pools de GPU identiques, payant pour 64 H100 tout en obtenant du travail significatif de peut-être 20.

L'inférence désagrégée, développée dans le paper DistServe 2024 de UC San Diego, sépare ces charges de travail sur du matériel distinct optimisé pour chaque phase. L'approche n'est pas théorique—Perplexity l'utilise en production, Meta et LinkedIn servent du trafic avec, et NVIDIA a construit leur framework Dynamo autour de ça. vLLM, SGLang, et TensorRT-LLM supportent tous la désagrégation nativement. La promesse est une réduction de coûts de 2 à 4x en dimensionnant le calcul selon les exigences réelles de charge de travail au lieu des scénarios pire cas.

Le paysage plus large d'optimisation d'inférence montre que ce changement architectural gagne en momentum au-delà des papers académiques. Alors que j'ai couvert les claims de Cursor's Warp Decode pour des accélérations de 1.8x en avril—qui manquaient de preuve concrète—l'inférence désagrégée livre des améliorations de coûts mesurables avec des déploiements de production que vous pouvez réellement vérifier. Le LLM Inference Handbook note que le prefill et decode colocalisés créent des conflits de planification où le prefill gourmand en calcul bloque le decode limité par la mémoire, augmentant à la fois le time-to-first-token et la latence inter-token.

Pour les développeurs qui font de l'inférence à grande échelle, la désagrégation demande de repenser votre architecture de déploiement mais offre des économies réelles. Si vous brûlez vos budgets H100 sur des charges d'inférence, le décalage d'utilisation matérielle vous coûte probablement plus que l'effort d'ingénierie pour implémenter des clusters prefill et decode séparés.