Wired के Sheon Han ने एक दिन CUDA लिखने में बिताया और builders के लिए काम का निष्कर्ष निकाला: Nvidia की moat H100 या B200 silicon नहीं, बल्कि CUDA है — वह प्लेटफ़ॉर्म लेयर जिसे Ian Buck और John Nickolls ने 2000 के दशक के मध्य में Nvidia में बनाना शुरू किया था, और उसके ऊपर सालों से जमा होती चली आ रही libraries। PyTorch में जो matrix multiplication तीन lines में होती है, उन्हें CUDA में पचास से ज़्यादा lines लगीं। यही अनुपात ही moat है। PyTorch, TensorFlow और JAX सब CUDA-first हैं; AMD के MI300X पर — जिसमें कागज़ पर H100 से ज़्यादा cores और मेमोरी है — वही frameworks कम performance देते हैं, इसलिए नहीं कि hardware धीमा है, बल्कि इसलिए कि kernels Nvidia silicon के लिए tune किए गए थे। स्वतंत्र benchmarks यह बार-बार दिखाते हैं।
CUDA के नीचे PTX है, Nvidia का pseudo-assembly। DeepSeek V3 के training run ने प्रसिद्ध रूप से CUDA abstraction से नीचे जाकर सीधा PTX लिखा और वह throughput निकाला जिसे Nvidia की अपनी libraries मेज़ पर छोड़ रही थीं। यह सबूत है कि moat को सुखाया जा सकता है। पेच यह है कि ऐसा काम कर सकने वाले इंजीनियरों की वैश्विक संख्या छोटी है, और एक बड़ा हिस्सा Nvidia में काम करता है। AMD का ROCm सालों से शिप हो रहा है और उसका subreddit अब भी सहायता समूह जैसा पढ़ा जाता है। Intel का oneAPI life support पर है। OpenCL — Apple, AMD, Qualcomm द्वारा कभी समर्थित — कभी ज़मीन नहीं पकड़ पाया। आज एकमात्र विश्वसनीय चुनौती Modular है, Chris Lattner की कंपनी जो Mojo और MAX बना रही है, और Modular अभी production pipelines में PyTorch की CUDA dependency को displace करने से बहुत दूर है।
wrapper economy और open-stack खेमे के लिए यह बेमतलब-शाही हकीकत है: हर "हम AMD पर भी चलते हैं" का दावा यूँ पढ़ना चाहिए — "हम performance gap झेलते हैं, inference में अदृश्य, training में भद्दा।" vLLM और SGLang जैसे frameworks default में CUDA-tuned हैं; AMD ports हैं पर पीछे हैं। deep stack का नतीजा: कोई भी provider जो hardware-neutral inference का वादा करता है वह CUDA tax दो में से एक तरह से चुकाता है — प्रतिस्पर्धी chips पर धीमे kernels, या एक engineering टीम जो खुद PTX लिख रही हो। दूसरा रास्ता ही है जो DeepSeek के R1 और V3 की economics को संभव बनाता है; बहुत कम labs के पास इसे दोहराने की टीम है। coding agents तक kernel code पर ठोकर खाते हैं, यानी "AI खुद अपने kernels लिखता है" वाला रास्ता — जो moat को घोल देता — अभी काम में नहीं है।
सोमवार सुबह के builder के लिए: अगर तुम्हारा stack पूरा Nvidia पर है, तो moat खुद को उस performance में चुका रहा है जो तुम कहीं और खो देते। अगर तुम AMD, Intel या किसी accelerator startup पर दांव लगा रहे हो ताकि lock-in टूटे, तो दो signals पर नज़र रखो — Modular का असली training pipelines में अपनाया जाना (benchmarks नहीं), और क्या OpenAI का Triton या Meta का PyTorch 3 kernel layer को इतना abstract करते हैं कि hardware swaps सस्ते हो जाएँ। जब तक इनमें से एक नहीं बदलता, Han का निष्कर्ष कायम है: Nvidia hardware कंपनी है क्योंकि वह पहले software कंपनी है, और वह software layer बीस साल गहरी है।
