Cloudflare ने 14 अप्रैल को MCP के लिए Code Mode जारी किया। यह एक पुनर्कल्पना है कि AI agents APIs को कैसे कॉल करते हैं, जो पूरा Cloudflare API उजागर करने की टोकन-छाप को दस लाख से अधिक टोकनों से घटाकर लगभग एक हज़ार पर ले आती है। यह दावा गंभीरता से लेने योग्य है, क्योंकि डिफ़ॉल्ट MCP पैटर्न (हर एंडपॉइंट को एक टूल के रूप में परिभाषित करना, और उन परिभाषाओं को मॉडल की कॉन्टेक्स्ट विंडो में डालना) सच में बड़े पैमाने पर टूट जाता है। अगर अकेला Cloudflare API ही दस लाख से अधिक टोकनों की खपत करता (जो आज किसी भी मॉडल की कॉन्टेक्स्ट विंडो से बड़ा है) सिर्फ़ यह बताने में कि कौन-कौन से टूल मौजूद हैं, तो हर बड़ा SaaS API उसी दीवार से टकराता है।
Code Mode "हज़ारों टूल" वाले रास्ते की जगह केवल दो टूल लगाता है: search() और execute()। search() मॉडल को एक टाइप्ड SDK में प्रासंगिक मेथड्स खोजने देता है। execute() मॉडल द्वारा लिखा गया कोड उसी SDK के विरुद्ध एक सैंडबॉक्स्ड Cloudflare Dynamic Worker के भीतर चलाता है। मॉडल अब प्रत्येक चरण पर एक पूर्व-परिभाषित टूल चुनने के बजाय, एक छोटा स्क्रिप्ट लिखता है जो कई संचालनों को जोड़ता है, स्क्रिप्ट चलाता है, और परिणाम देखता है। शुद्ध प्रभाव यह है कि पूरे API-सतह की टोकन-छाप तय रहती है, चाहे गेटवे के पीछे एक सेवा हो या पचास। WorkOS का स्वतंत्र परीक्षण उनके परिदृश्य में 81% टोकन-कटौती रिपोर्ट करता है; Cloudflare का अपना ब्लॉग Cloudflare API पर विशेष रूप से 99.9% का दावा करता है। दोनों आँकड़े सच हो सकते हैं। निर्भर करता है कि आप किसके विरुद्ध तुलना कर रहे हैं और प्रति सत्र टूलों का कौन-सा अंश इस्तेमाल होता है।
यह पैटर्न Cloudflare से बड़ा है। बड़े APIs के लिए MCP एकीकरण बनाने वाला हर कोई उसी छत से टकरा रहा है: जितने अधिक एंडपॉइंट्स आप उजागर करें, agent के कुछ करने से पहले उतना ही अधिक कॉन्टेक्स्ट जलता है। Code Mode असल में यह है कि "agent को एक REPL और एक SDK दो", एक दृष्टिकोण जिसे Python जगत दो साल से पहचानता आ रहा है, जबसे "notebook-as-agent-interface" विचार प्रसारित होने लगे। Cloudflare ने इसे पहले इसलिए भेजा क्योंकि उसके पास पहले से एक सैंडबॉक्स्ड रनटाइम (Workers) है जो अविश्वसनीय कोड को सुरक्षित रूप से चला सकता है। बाक़ी सबको वही पैटर्न भेजने से पहले अपनी सैंडबॉक्स-कहानी चाहिए। उम्मीद रखिए कि Vercel, Fly, Render और बड़े क्लाउड अगले छह महीनों में मिलती-जुलती क्षमताएँ जारी करेंगे, और उम्मीद रखिए कि "सैंडबॉक्स-पृथक्करण वास्तव में क्या गारंटी देता है" पर एक साल लम्बी सुरक्षा-बहस चलेगी।
अगर आप MCP सर्वर बना रहे हैं या चला रहे हैं, तो दो तुरंत उठाने योग्य कदम हैं। पहला, अपनी कॉन्टेक्स्ट-लागत का ऑडिट करिए: agent के कुछ करने से पहले आपकी टूल-सूची कितने टोकन खा रही है? अगर उत्तर कुछ हज़ारों से अधिक है, तो आपके पास एक स्केलेबिलिटी-समस्या है जिसे बड़ा मॉडल अकेला हल नहीं करेगा। दूसरा, सोचिए कि क्या आपकी API-सतह को एक समतल टूल-सूची के बजाय एक टाइप्ड SDK के रूप में दर्शाया जा सकता है। दर्ज़नों से हज़ारों एंडपॉइंट्स वाले REST APIs के लिए, Code Mode पैटर्न दीर्घकालिक रूप से सम्भवतः सही दिशा है, भले ही आप Cloudflare को कभी न छुएँ। कठिन सवाल सैंडबॉक्स का है। मॉडल-जनरेटेड कोड चलाना वह सुरक्षा-समस्या है जिसे हर टीम को देर-सवेर हल करना ही पड़ता है, और "मॉडल-प्रदाता के Python-एग्ज़ीक्यूटर पर भरोसा करो" तब टिकाऊ उत्तर नहीं है जब आपके agents प्रोडक्शन सिस्टम्स को छू रहे हों। Code Mode इस बातचीत को "भविष्य की चिंता" से खींचकर "अभी का डिज़ाइन-निर्णय" बना देता है।
