AI बुनियादी ढाँचा पारंपरिक cloud computing जैसा कुछ नहीं दिखता, भले ही यह उन्हीं डेटा centers के अंदर चलता है। एक पारंपरिक web application CPU-बाध्य और memory-light है — कुछ cores, कुछ gigabytes RAM, शायद एक मामूली डेटाबेस। AI workloads उस profile को पूरी तरह से उल्टा करते हैं। GPT-4 या Claude जैसे फ्रंटियर मॉडल को प्रशिक्षित करने के लिए हज़ारों GPUs को हफ्तों तक parallel में चलने की आवश्यकता होती है, अति-तेज़ interconnects (InfiniBand या NVLink) से जुड़े हुए ताकि वे बिना bottleneck किए gradients को synchronize कर सकें। अकेले networking एक पारंपरिक setup में servers से अधिक खर्च हो सकती है। यही कारण है कि NVIDIA जैसी कंपनियाँ, अपने DGX SuperPOD सिस्टमों के साथ, और CoreWeave तथा Lambda Labs जैसे cloud providers ने पूरे व्यवसाय GPU-first बुनियादी ढाँचे के आसपास बनाए हैं जो किसी भी अन्य संदर्भ में बेतुके दिखेंगे।
प्रशिक्षण बुनियादी ढाँचा hardware configurations के एक छोटे समूह द्वारा हावी है। NVIDIA के H100 और H200 GPUs workhorses हैं, आम तौर पर प्रति node 8 के clusters में तैनात (NVLink के माध्यम से जुड़े) सैकड़ों या हज़ारों nodes के साथ InfiniBand networking द्वारा linked। Google के पास इसके TPU pods (v5e और v6) हैं, Amazon के पास Trainium chips हैं, और Microsoft के पास इसका custom Maia accelerator है — लेकिन NVIDIA अभी भी AI प्रशिक्षण बाज़ार के लगभग 80% पर command करता है। Software पक्ष पर, DeepSpeed, Megatron-LM, और PyTorch FSDP जैसे distributed training frameworks उन parallelism रणनीतियों (data parallel, tensor parallel, pipeline parallel) को संभालते हैं जो एक मॉडल को जो एक GPU के लिए बहुत बड़ा है उसे पूरे cluster में फैलने देते हैं। Orchestration आम तौर पर GPU-aware scheduling के साथ Kubernetes पर चलता है, या पारंपरिक HPC-शैली batch workloads के लिए Slurm पर। पूरा stack — silicon से scheduler तक — को संगीत में काम करना है, और एक एकल धीमा node या flaky network link एक हज़ार-GPU प्रशिक्षण रन के प्रदर्शन को tank कर सकता है।
यदि प्रशिक्षण एक निर्माण परियोजना है, तो inference एक रेस्तरां की रसोई है — यह throughput, latency, और पैमाने पर प्रति अनुरोध लागत के बारे में है। Inference बुनियादी ढाँचे के अपने विशेष tools हैं: continuous batching और PagedAttention जैसी तकनीकों के साथ बड़े भाषा मॉडलों को serve करने के लिए vLLM और TensorRT-LLM; multi-model serving के लिए Triton Inference Server; और quantization tools जो मॉडलों को 16-bit से 4-bit परिशुद्धता तक shrink करते हैं ताकि वे सस्ते hardware पर fit हो सकें। अर्थशास्त्र तीव्र है: H100s पर पूर्ण परिशुद्धता पर एक मॉडल serve करना $3 प्रति मिलियन tokens खर्च हो सकता है, लेकिन उपभोक्ता GPUs या custom inference chips पर एक quantized संस्करण चलाना उसे $0.20 के तहत ला सकता है। Groq (अपने LPU chips के साथ), Cerebras (wafer-scale engines), और SambaNova (dataflow आर्किटेक्चर) जैसी कंपनियाँ सभी दाँव लगा रही हैं कि उद्देश्य-निर्मित inference hardware अंततः serving के लिए GPUs को undercut करेगा।
अधिकांश संगठनों के लिए, AI बुनियादी ढाँचा कुछ ऐसा नहीं है जो आप बनाते हैं — यह कुछ ऐसा है जो आप किराए पर लेते हैं। hyperscalers (AWS, Azure, Google Cloud) माँग पर GPU instances प्रदान करते हैं, और CoreWeave, Lambda, और DataCrunch जैसे विशेष providers कम extras के साथ बेहतर GPU pricing प्रदान करते हैं। On-premise GPU clusters केवल विशाल पैमाने पर समझ में आते हैं: Meta 600,000 H100s से अधिक संचालित करता है, और xAI का Memphis डेटा center एक छत के नीचे 100,000 GPUs चलाता है। उस पैमाने से नीचे, GPU hardware को manage करने का operational overhead — thermal throttling, GPU विफलताओं (H100s प्रति वर्ष लगभग 1–3% पर विफल होते हैं), driver updates, और power management से निपटना — शायद ही कभी capital खर्च को justify करता है। अधिकांश टीमों के लिए वास्तविक बुनियादी ढाँचा कौशल clusters बनाना नहीं है; यह सही provider चुनना, batch आकारों को optimize करना, और जानना कि कब समस्या पर hardware फेंकने के बजाय एक छोटे मॉडल का उपयोग करना है जो एक एकल GPU पर चलता है।
बुनियादी ढाँचा परिदृश्य तेज़ी से बदल रहा है। Custom silicon फैल रहा है — हर प्रमुख cloud provider के पास अब अपने AI chips हैं या बना रहा है, NVIDIA के margins का पीछा कर रहा है। Inference-optimized hardware प्रशिक्षण hardware से अलग हो रहा है, क्योंकि workload profiles बहुत अलग हैं। Edge inference बढ़ रहा है, मॉडल phones (Apple's Neural Engine, Qualcomm's Hexagon) और laptops (Intel's NPU, AMD's XDNA) पर cloud में के बजाय चल रहे हैं। और AI agents का उदय — वे सिस्टम जो प्रति कार्य कई मॉडल calls करते हैं — inference माँग को ऐसे तरीकों से गुणा कर रहा है जो वर्तमान क्षमता पर दबाव डाल रहे हैं। आज AI बुनियादी ढाँचे को नियंत्रित करने वाली कंपनियाँ AI प्रगति की गति को नियंत्रित करती हैं, यही कारण है कि Microsoft, Google, और Amazon प्रत्येक डेटा centers पर प्रति वर्ष $50 अरब से अधिक खर्च कर रहे हैं।