Cloudflare ने एक अपना LLM इन्फ़रेंस इंजन अपने पूरे ग्लोबल नेटवर्क पर प्रोडक्शन में डाल दिया है। इंजन का नाम Infire है, अंदर का आर्किटेक्चरल चयन है prefill/decode अलगाव — इनपुट प्रोसेसिंग और आउटपुट जनरेशन को अलग-अलग मशीनों पर डालना जो हर एक के लिए अलग से ऑप्टिमाइज़ हैं — और नतीजा यह है कि Cloudflare अब Kimi K2.5 (1T+ params, डिस्क पर ~560GB) जैसे ट्रिलियन-पैरामीटर ओपन मॉडल किनारे पर होस्ट कर रहा है, साथ ही Llama 4 Scout भी। दिलचस्प बात यह नहीं कि लॉन्च हुआ; दिलचस्प यह है कि सबसे बड़े CDNs में से एक उन छोटे से ऑपरेटरों के समूह में जुड़ गया है जो स्केल पर अपना ख़ुद का — vLLM न, SGLang न — इन्फ़रेंस स्टैक चला रहे हैं।
P/D split ही भार उठाने वाला आर्किटेक्चरल चयन है। Prefill compute-बाउंड है: यह इनपुट prompt को प्रोसेस करता है और KV cache भरता है। Decode मेमोरी-बाउंड है: KV cache पढ़ता है और एक बार में एक token निकालता है। दोनों चरण एक ही मशीन पर रखने का मतलब है कि जो चरण bottleneck नहीं है, वह hardware बर्बाद कर रहा है। Infire दोनों को अलग मशीनों पर डालता है जो हर एक प्रोफ़ाइल के लिए ऑप्टिमाइज़्ड हैं। उसके ऊपर, Infire pipeline parallelism (मॉडल लेयर के हिसाब से GPU में shard) और tensor parallelism (लेयर के अंदर tensor के हिसाब से shard) को साथ चलाता है, स्पष्ट लक्ष्य यह कि किसी एक चरण के GPU भूखे न रहें जब दूसरा चरण चल रहा हो। Hardware की पदचिह्न ठोस हैं: Kimi K2.5 को कम-से-कम 8 H100 चाहिए (मॉडल ~560GB; बाक़ी HBM KV cache के लिए); Llama 4 Scout 2 H200 में फ़िट हो जाता है, काफ़ी context capacity बच भी जाती है।
दूसरा टुकड़ा है Unweight, Cloudflare का वज़न-संपीड़न सिस्टम जो मॉडल वज़न को 15-22% तक छोटा करता है — सटीकता खोए बिना — और इन्फ़रेंस के दौरान GPUs के बीच जो data move होता है उसे काटता है। ट्रिलियन पैमाने पर, वज़न का movement एक असली लागत आयाम है — bytes-loaded संख्या में हर एक प्रतिशत कम का मतलब है असली वाटेज और असली latency। बड़ी तस्वीर: Cloudflare ख़ुद को इस तरह positioning कर रहा है कि वह frontier-स्केल ओपन मॉडलों को एक generic infrastructure टीयर की तरह host करे — उसी तरह जैसे वे static assets host करते हैं। अगर Kimi K2.5 और Llama 4 Scout Cloudflare पर भरोसेमंद cold-start और TTFT आँकड़ों के साथ चलते हैं, तो "अपना H100 क्लस्टर rent करना vs Cloudflare" का प्रति-token लागत समीकरण बदल जाता है। Wrapper economy को एक नया substrate मिल जाता है, और "मैं इस 1T-param मॉडल को कहाँ चलाऊँ" अब procurement project नहीं रह जाता।
अगर आप frontier-स्केल ओपन-वेट मॉडलों के साथ शिप करते हैं और GPU पूल चलाना नहीं चाहते, Workers AI / Infire अब उस competitive bracket में है जहाँ एक साल पहले नहीं था — वही workload वहाँ और अपने वर्तमान provider पर चलाएँ, TTFT और प्रति-token लागत को सार्थक तुलना मानें, ख़ासकर लंबे-context coding-agent traces के लिए। अगर आप अपना ख़ुद का inference स्टैक चलाते हैं, P/D अलगाव pattern ही टेक-होम है; pipeline + tensor parallelism एक साथ (एक चुनने के बजाय) implementation note है। Unweight जहाँ तक मैंने देखा, ओपन नहीं है, तो वज़न-संपीड़न अभी भी build-or-buy decision है। vLLM और SGLang पर "बेस्ट-इन-क्लास बने रहने" का competitive दबाव अभी ज़्यादा असली हो गया है।
