LLM serving हमेशा एक ही rack तक सीमित समस्या रही है, और इसका कारण है। 8×H200 instance पर 32K-token request का prefill लगभग 60 Gbps की दर से KV cache पैदा करता है। यह संख्या prefill और decode को एक ही rack में, या ज्यादा से ज्यादा एक ही datacenter में रखने के लिए मजबूर करती है, क्योंकि केवल RDMA fabric ही ऐसा traffic बिना घुटे ले जा सकता है। कीमत यह है कि तुम एक ही GPU में dense compute और high-bandwidth memory दोनों के लिए भुगतान करते हो, जबकि decode phase को मुख्य रूप से दूसरी ही चाहिए। Moonshot AI और Tsinghua अपने PrfaaS paper (arxiv 2604.15039) में तर्क देते हैं कि इस colocation धारणा पर पुनर्विचार करना उचित है।

PrfaaS, prefill-as-a-service का संक्षिप्त रूप, लंबे prefills को समर्पित H200 क्लस्टरों पर भेजता है, फिर परिणामी KV cache को सामान्य Ethernet पर सस्ते H20 GPU चलाने वाले स्थानीय decode क्लस्टरों में भेजता है। तीन चीजें transfer को व्यावहारिक बनाती हैं। पहला, hybrid attention: Ring-2.5-1T और MiMo-V2-Flash dense-attention समकक्षों की तुलना में KV state को लगभग 36× संपीड़ित करते हैं, जिससे प्रति-request cache egress लगभग 60 Gbps से गिरकर 5 Gbps पर आ जाता है। दूसरा, layer-wise pipelining generation और transmission को overlap करता है, तो transfer prefill खत्म होने से पहले शुरू हो जाता है। तीसरा, multi-connection TCP और सक्रिय congestion monitoring उपलब्ध VPC bandwidth को saturate करते हैं (100 Gbps link पर लगभग 13 Gbps सतत)। Routing length-आधारित है: 19.4K tokens से कम स्थानीय रहता है, लंबे requests दूरस्थ prefill की ओर जाते हैं जहां compute बचत round-trip को justify करती है।

Case-study के आंकड़े नजरअंदाज करना मुश्किल है। 32 H200 prefill plus 64 H20 decode पर, PrfaaS homogeneous H200 baseline से 54% अधिक throughput और naive heterogeneous setup से 32% अधिक हासिल करता है। औसत TTFT 50% गिरता है, P90 TTFT 64% गिरता है। 10,000-GPU datacenter तक extrapolate करें, तो aggregate cross-cluster bandwidth 1.8 Tbps तक पहुंचता है। Architectural तर्क benchmarks से बड़ा है: geo-distributed LLM serving KV transport पर रुका हुआ था, और अगर hybrid attention plus pipelined TCP इसे पार करने के लिए पर्याप्त है, तो तुम्हारे prefill GPU कहां रहेंगे यह design space अचानक खुल जाता है। एक region में prefill, दूसरे में decode, हर जगह सस्ता silicon।

अगर तुम बड़े पैमाने पर long-context inference चला रहे हो, इस paper से दो चीजें अपने stack के विरुद्ध मापने लायक हैं। एक, 19.4K-token routing threshold जादुई नहीं है; यह वह बिंदु है जहां PrfaaS का विशिष्ट compute differential लाभदायक होता है, और तुम्हारी संख्या अलग होगी। दो, hybrid attention compression ratios पूरी तरह इस पर निर्भर हैं कि तुम किस model family को serve कर रहे हो; dense-attention models को 36× मुफ्त नहीं मिलता। लेकिन व्यापक दावा — कि cache सिकुड़ने के बाद KV transport के लिए सामान्य Ethernet काफी है — यह वह नतीजा है जो inference serving के लिए "datacenter-bound" के अर्थ को बदल देता है।