Snowflake ने AWS Graviton ARM-आधारित CPU क्षमता के लिए पाँच साल, $6B प्रतिबद्धता पर हस्ताक्षर किए। घोषणा में नामित रणनीतिक विभाजन है "जबकि GPUs प्रशिक्षण और तर्क को संभालते हैं, CPUs AI से जुड़े अधिकांश अन्य कार्यों को संभालते हैं, विशेष रूप से एजेंट"। यह हेडलाइन आर्थिक संख्या के तहत बिल्डर-फ्रेम कहानी है — हाइपरस्केल ग्राहक आपूर्ति-प्रतिबद्धता पैमाने पर CPU खरीद रहे हैं क्योंकि एजेंट वर्कलोड CPU-bound हैं, GPU-bound नहीं। $1.2B/वर्ष की रन रेट ARM CPUs को AI capex बातचीत पर हावी GPU अनुबंधों के समान खरीद श्रेणी में डालती है।
ARM CPUs एजेंट stack से मेल खाने का आर्किटेक्चरल कारण वर्कलोड आकार है। एक एजेंट का अधिकांश wall-clock है tool dispatch, retrieval ऑर्केस्ट्रेशन, JSON parsing, सत्यापन तर्क, prompt असेंबली, और बारह-चरण स्टेट मशीन जो एक LLM इन्फरेंस कॉल को लपेटती है। एकल इन्फरेंस कॉल को GPU मेमोरी bandwidth चाहिए; इसके चारों ओर के ग्यारह चरणों को पैमाने पर कम-विलंबता CPU चक्र चाहिए। AWS Graviton की price-performance पोजीशनिंग सामान्य सर्वर वर्कलोड में वर्षों से मान्य रही है, लेकिन एजेंट stack वह जगह है जहाँ समान अर्थशास्त्र AI-tagged खर्च पर लागू होना शुरू हुआ। Snowflake प्रतिबद्धता भी एक Cortex AI संकेत है — उनका टेक्स्ट-इंटरफ़ेस-टू-डेटाबेस उत्पाद उस प्रकार का एजेंट वर्कलोड है जो ज्यादातर CPU पर रहता है आंतरायिक GPU कॉल के साथ।
बिल्डर्स के लिए इकोसिस्टम रीडिंग: प्रेस में CPU-cloud बनाम GPU-Nvidia फ्रेमिंग गलत द्विभाजन है। सही पठन है "एजेंट GPU bursts के साथ CPU-heavy हैं" — और अनुपात इस पर निर्भर करता है कि आप एजेंट loop के किस चरण को इंस्ट्रूमेंट करते हैं। हाइपरस्केलर्स (AWS Graviton, Azure Cobalt, Google Axion) ARM को AI खर्च के CPU-heavy हिस्से के लिए सब्सट्रेट के रूप में स्थिति में रख रहे हैं, जो सरल चैट से परे किसी भी एप्लिकेशन के लिए संरचनात्मक रूप से GPU-heavy हिस्से से बड़ा है। घोषणा में Nvidia GPU के विरुद्ध एजेंट-loop wall-clock पर कोई head-to-head तुलना नहीं है, जो ध्वजांकित करने योग्य पद्धति अंतर है। तर्क आर्थिक-वास्तुशिल्प है, बेंचमार्क-सत्यापित नहीं। Snowflake की $6B प्रतिबद्धता एक वोट है कि आर्थिक मामला सार्वजनिक बेंचमार्क का इंतजार किए बिना खरीदने के लिए पर्याप्त मजबूत है।
यदि आप सोमवार सुबह एजेंट इन्फ्रास्ट्रक्चर बनाते हैं: एजेंट wall-clock में अपने वास्तविक CPU-to-GPU अनुपात को मापें, फिर तदनुसार इंस्टेंस प्रकार चुनें। "AI वर्कलोड = GPU इंस्टेंस" धारणा एजेंट-heavy सेवाओं पर पैसे खर्च करती है। यदि आप एजेंट प्लेटफ़ॉर्म बेचते हैं: एंटरप्राइज़ ग्राहकों के साथ प्रति-टोकन अर्थशास्त्र बातचीत कच्ची इन्फरेंस लागत से कुल एजेंट-loop compute मिश्रण की ओर बदल रही है, और ARM CPU मूल्य निर्धारण उस पिच का हिस्सा है।
