एक single H100 GPU जो Llama 70B चला रहा है prefill के दौरान 92% utilization हिट करता है, फिर decode के दौरान 28% पर crash हो जाता है—यह सब same request के milliseconds के भीतर। यह कोई bug नहीं है, यह LLMs के काम करने के तरीके और हमारे उन्हें deploy करने के तरीके के बीच fundamental mismatch है। Prefill massive matrix multiplications के through entire prompts को parallel में process करता है जो tensor cores को saturate करते हैं। Decode memory lookups के through tokens को one-by-one generate करता है जो compute resources को barely touch करते हैं। फिर भी most teams identical GPU pools पर दोनों phases चलाते हैं, 64 H100s के लिए pay करते हैं जबकि meaningful work शायद 20 से मिलता है।
Disaggregated inference, जो UC San Diego के 2024 DistServe paper में pioneered हुआ, इन workloads को separate hardware पर split करता है जो each phase के लिए optimized है। यह approach theoretical नहीं है—Perplexity इसे production में run करता है, Meta और LinkedIn इसके through traffic serve करते हैं, और NVIDIA ने अपना Dynamo framework इसके around build किया है। vLLM, SGLang, और TensorRT-LLM सभी disaggregation को natively support करते हैं। Promise यह है कि worst-case scenarios के बजाय actual workload requirements के लिए compute को right-size करके 2-4x cost reduction मिले।
Broader inference optimization landscape दिखाता है कि यह architectural shift academic papers से beyond momentum gain कर रहा है। जबकि मैंने April में Cursor के Warp Decode claims को 1.8x speedups के लिए cover किया था—जिसमें concrete proof की कमी थी—disaggregated inference measurable cost improvements deliver करता है production deployments के साथ जिन्हें आप actually verify कर सकते हैं। LLM Inference Handbook note करता है कि collocated prefill और decode scheduling conflicts create करते हैं जहाँ compute-heavy prefill memory-bound decode को block करता है, दोनों time-to-first-token और inter-token latency increase करता है।
Developers के लिए जो scale पर inference run कर रहे हैं, disaggregation आपके deployment architecture को rethink करने की require करता है लेकिन real cost savings offer करता है। अगर आप inference workloads पर H100 budgets burn कर रहे हैं, तो hardware utilization mismatch शायद आपको separate prefill और decode clusters implement करने की engineering effort से ज्यादा cost कर रहा है।
