Neoclouds ने AMD के AI GPUs को खोला: MLPerf रिकॉर्ड Llama2-70B पर H100 से ~25% आगे

AMD के पास दो साल से प्रतिस्पर्धी AI silicon रहा है (MI300X 192GB HBM3 के साथ, MI325X 256GB HBM3E के साथ, अब MI355X 288GB HBM3E और 8TB/s मेमोरी bandwidth के साथ 4th-gen CDNA architecture पर)। कारण कि enterprises ज़्यादातर move नहीं हुए, यह है कि software stack — ROCm, kernel coverage, vLLM/SGLang ports, scheduling — Nvidia के CUDA ecosystem से इतना पीछे रहा कि वह hardware advantage को मिटा दे। कहानी अब यह है कि *neocloud* providers — TensorWave, MangoBoost, Crusoe — खुद वह gap बंद कर रहे हैं, AMD या open-source community का इंतज़ार नहीं कर रहे, और सार्वजनिक proof points अब आने लगे हैं।

मुख्य परिणाम: MangoBoost का LLMBoost software stack ने 32× MI300X (चार 8-GPU nodes) पर MLPerf Inference v5.0 के Llama2-70B offline category में 103,182 tokens/sec मारा, बनाम पिछले H100 record 82,749 TPS — लगभग 25% अधिक throughput। वे तीन चीज़ों का श्रेय देते हैं: multi-dimensional parallelism, node में 8 GPUs के पार dynamic scheduling, और एक सुव्यवस्थित interface जो उनका दावा है कि उसी hardware पर साधारण vLLM से 5.2-6.0× तेज़ चलता है। MangoBoost का अपना गणित (caveat: उनके आंकड़े, स्वतंत्र रूप से audited नहीं) — MI300X $15-17K vs H100 $32-40K — लगभग 2.8× अधिक inference throughput प्रति $1,000 खर्च निकलता है। TensorWave production में MI355X deploy करने वाले पहले clouds में से है, और उत्तर अमेरिका का सबसे बड़ा AMD AI training cluster 8,192× MI325X पर direct liquid cooling के तहत चलाता है। MI355X की cloud pricing पाँच providers (TensorWave, Crusoe, Vultr, और अन्य) में अभी $2.29-$8.60/hr प्रति GPU है।

Pattern वह है जो devs को track करना चाहिए। AMD का gap कुख्यात था — capable hardware जिसे कोई productively deploy नहीं कर सकता था क्योंकि kernels नहीं थे, schedulers tuned नहीं थे, framework support असमान था। पारंपरिक उत्तर होगा "AMD ठीक करता है" या "open-source community ठीक करती है" — दोनों चल रहे थे, पर धीमे। Neoclouds तीसरा रास्ता हैं: vertically-integrated providers जो दोनों software optimization *और* deployment surface के मालिक हैं, उस cost-per-token gap से margin पकड़ रहे हैं जो वे ख़ुद बनाते हैं। यह संरचनात्मक रूप से Nvidia-plus-hyperscaler stack से अलग है, जहाँ Nvidia software का मालिक है और hyperscalers hardware चलाते हैं। AMD का रास्ता design से fragmented है, और यह fragmentation आख़िरकार उसके पक्ष में काम कर रही है — जब कोई एक platform owner optimization narrative को control नहीं करता, विशिष्ट खिलाड़ी focused effort पर जीत सकते हैं।

अगर आप scale पर LLM inference ship करते हैं और H100/H200 पर lock हो गए क्योंकि AMD का रास्ता बहुत rough दिखा, गणित बदल गया है। अगली Nvidia procurement signing से पहले MI300X पर MangoBoost के through या MI355X पर TensorWave/Crusoe के through असली workload test करें। MLPerf संख्या पूरी तस्वीर नहीं है — आपका latency profile, आपके specific model architecture के लिए kernel coverage, और आपकी ops team की ROCm familiarity — सब मायने रखती हैं — पर ~2.8× inference throughput प्रति dollar ऐसी संख्या है जो पूर्ण benchmarking pass justify करती है। LLMBoost stack भार-वहन software layer है; अगर आप MI300X पर साधारण vLLM चलाते हैं और numbers प्रभावित नहीं करते, तो वह इसलिए क्योंकि साधारण vLLM optimized रास्ता नहीं है। संकेत "AMD जीत गया" नहीं है। यह है "Nvidia के लिए software lock-in तर्क एक साल पहले से कमज़ोर है, और neoclouds इसका कारण हैं।

Neoclouds ने AMD के AI GPUs को खोला: MLPerf रिकॉर्ड Llama2-70B पर H100 से ~25% आगे

और समाचार