TechCrunch ने शुक्रवार को रिपोर्ट किया कि Meta ने लाखों Amazon Web Services Graviton CPUs के लिए एक सौदे पर हस्ताक्षर किए, विशेष रूप से मॉडल प्रशिक्षण या अनुमान के बजाय एजेंटिक AI वर्कलोड के लिए क्षमता के रूप में फ्रेम किए गए। सौदा Meta के फरवरी 2026 के Nvidia के साथ standalone Grace CPUs के लिए समझौते में जुड़ता है, जिसने Meta के बुनियादी ढांचे रोडमैप में CPU को GPU से स्पष्ट रूप से अलग किया। Graviton मांग पक्ष को अलग रिपोर्टिंग द्वारा पुष्टि की गई है कि दो बड़े AWS ग्राहकों ने इस साल AWS की 2026 Graviton इंस्टेंस क्षमता की पूरी खरीदने की कोशिश की। AWS ने अन्य ग्राहकों की ज़रूरतों का हवाला देते हुए इनकार कर दिया। चिप उद्योग का ध्यान तीन साल से GPUs पर रहा है। अगले दो की कहानी CPUs होगी।

तकनीकी कारण यांत्रिक है। एक मॉडल फॉरवर्ड पास GPUs पर चलता है। एजेंटिक वर्कफ़्लो में बाकी सब कुछ CPUs पर चलता है। इसमें प्रॉम्प्ट असेंबली, टूल इनवोकेशन, परिणाम पार्सिंग, बहु-चरण तर्क श्रृंखलाओं में स्टेट ट्रैकिंग, टूल कॉल के बीच ऑर्केस्ट्रेशन, रिट्राई लॉजिक, लॉगिंग, और ग्लू कोड शामिल है जो मॉडल के आउटपुट को उस क्रिया से बांधता है जो एजेंट को आगे करने की आवश्यकता है। एक एकल एजेंटिक टास्क जो उपयोगकर्ता दीवार-घड़ी के एक मिनट का समय लेता है वह प्रति GPU-सेकंड अनुमान के सैकड़ों CPU-सेकंड ऑर्केस्ट्रेशन शामिल कर सकता है। जैसे-जैसे एजेंट प्रमुख LLM तैनाती पैटर्न बनते हैं, वह अनुपात अड़चन को matmul थ्रूपुट से CPU कोर गणना और single-thread लेटेंसी तक ले जाता है। Graviton कोर ARM-आधारित, कैश-भारी हैं, और समकक्ष Xeon या EPYC से काफी कम कीमत पर हैं; वे ठीक वह वर्कलोड प्रोफ़ाइल हैं जो एजेंट ऑर्केस्ट्रेशन चाहती है।

वाणिज्यिक तस्वीर फिट बैठती है। AWS ने मार्च 2026 तक 1.4 मिलियन Trainium चिप्स तैनात किए हैं, जिसमें Project Rainier में 500,000 Trainium2 केंद्रित हैं, और Graviton5 पीढ़ी हाल ही में 192 कोर और 180MB L3 कैश के साथ लॉन्च हुई। Meta एक साथ Nvidia Grace (फरवरी 2026 सौदा), AWS Graviton (इस सप्ताह), Broadcom कस्टम सिलिकॉन (कस्टम AI प्रोसेसर के लिए अप्रैल 2026 विस्तार), और अपने स्वयं के MTIA आंतरिक त्वरक चला रहा है। वह विविधीकरण संकेत है। Meta किसी एकल CPU विक्रेता पर दांव नहीं लगा रहा है क्योंकि Grace, Graviton, EPYC, Xeon, और हाइपरस्केलर-कस्टम सिलिकॉन के बीच प्रतिस्पर्धी गतिशीलता अभी भी खुली है, और Meta नहीं चाहता कि अनुमान और ऑर्केस्ट्रेशन वॉल्यूम के एक और 10x बढ़ने पर एकल आपूर्तिकर्ता द्वारा कोने में धकेल दिया जाए। इस तस्वीर में Amazon की स्थिति असामान्य है क्योंकि वह प्रत्यक्ष प्रतिस्पर्धियों और Anthropic दोनों को क्षमता बेचता है, जिसने खुद ही Amazon से $25B लिया है जिसके साथ क्लाउड खर्च प्रतिबद्धता जुड़ी है।

builders के लिए, व्यावहारिक पठन सरल है। यदि आप एक एजेंटिक सिस्टम का वास्तुविद कर रहे हैं, तो लागत मॉडल बदलता है। GPU अनुमान अभी भी प्रति टोकन सबसे महंगा है, लेकिन जैसे-जैसे आप टूल कॉल, रिट्राई, और जटिल स्टेट मशीनें जोड़ते हैं, CPU ऑर्केस्ट्रेशन समय कुल सामान-लागत पर हावी हो सकता है। GPU-पक्षपाती के खिलाफ CPU-समृद्ध इंस्टेंस पर बेंचमार्किंग करना मान लेने के बजाय करने योग्य हो जाता है। दूसरा, अनुमान-प्रदाता परिदृश्य GPU क्षमता के साथ-साथ CPU क्षमता वाले विक्रेताओं की ओर स्थानांतरित होता रहेगा; CoreWeave और Lambda जैसी शुद्ध GPU-केंद्रित दुकानों ने ऐतिहासिक रूप से प्रशिक्षण थ्रूपुट के लिए अनुकूलित किया है लेकिन अब विशेष रूप से CPU क्षमता का निर्माण कर रही हैं क्योंकि एजेंट वर्कलोड को इसकी आवश्यकता है। तीसरा, यदि आपका एप्लिकेशन एजेंट ऑर्केस्ट्रेशन द्वारा बोतलनेक हो गया है, तो आपके पास अनुकूलन के लिए GPU अक्ष की तुलना में CPU अक्ष पर अधिक जगह होने की संभावना है, क्योंकि ARM-आधारित क्लाउड CPUs जल्दी से सस्ते हो गए हैं। 2026 में AI बुनियादी ढांचे की कहानी अब इस बारे में नहीं है कि किसके पास सबसे अधिक H100 हैं। यह इस बारे में है कि किसने पैमाने पर एजेंट चलाने के लिए silicon और अनुसूचन सॉफ़्टवेयर बनाया है, और यह एक अलग आकार का प्रश्न है।