GPU: परिभाषा और अर्थ — AI विकी

मूल रूप से ग्राफिक्स रेंडरिंग के लिए डिज़ाइन किए गए GPU एआई के लिए बहुत अच्छे साबित हुए क्योंकि वे एक साथ हजारों गणितीय संचालन कर सकते हैं। एआई मॉडल के प्रशिक्षण और चलाना मूल रूप से बड़े पैमाने पर मैट्रिक्स गुणा — ठीक वही काम है जिसके लिए GPU बनाए गए हैं। NVIDIA इस बाजार में नियंत्रण रखता है।

यह क्यों मायने रखता है

GPU एंटी एआई उद्योग के पूरे भौतिक सीमा हैं। क्यों मॉडल्स उतना महंगा होता है जितना वे होते हैं, क्यों कुछ प्रदाता अन्य के मुकाबले तेज होते हैं, क्यों विश्व स्तर पर चिप की कमी है — यह सभी बातें GPU की आपूर्ति और VRAM पर वापस आती हैं।

गहन अध्ययन

GPUs के AI पर हावी होने का कारण किसी एकल गणना पर raw speed नहीं है — एक CPU वास्तव में individual operations को तेज़ी से संभालता है। लाभ parallelism है। एक आधुनिक CPU में 8-64 cores हैं; एक NVIDIA H100 में 16,896 CUDA cores हैं। न्यूरल networks matrix multiplications पर बने हैं, जहाँ आप एक साथ हज़ारों स्वतंत्र डेटा बिंदुओं पर वही operation कर रहे हैं। यह बिल्कुल वह workload है जिसके लिए GPUs को डिज़ाइन किया गया था जब उनका काम हर frame में लाखों pixels के रंग की गणना करना था। AI community ने बस यह नोटिस किया कि वही hardware आर्किटेक्चर न्यूरल networks को प्रशिक्षित करने के लिए perfect था, और आधुनिक GPU compute युग का जन्म हुआ।

CUDA खाई

AI GPUs में NVIDIA का प्रभुत्व केवल hardware के बारे में नहीं है — यह CUDA के बारे में है, वह software ecosystem जिसे वे 2006 से बना रहे हैं। CUDA programming framework है जो developers को NVIDIA GPUs के लिए कोड लिखने देता है, और वस्तुतः हर प्रमुख AI framework (PyTorch, TensorFlow, JAX) इसके ऊपर बना है। AMD अपने MI300X (192GB HBM3 memory) के साथ प्रतिस्पर्धी hardware बनाता है, और उनके पास CUDA विकल्प के रूप में ROCm है, लेकिन ecosystem gap विशाल है। अधिकांश AI शोधकर्ताओं और engineers ने वर्षों CUDA कोड लिखने में बिताए हैं और उन्हें port करने के लिए eager नहीं हैं। Google के TPUs (Tensor Processing Units) अन्य प्रमुख खिलाड़ी हैं, लेकिन वे केवल Google Cloud के माध्यम से उपलब्ध हैं — आप एक खरीद नहीं सकते।

Hardware tiers

GPU परिदृश्य में स्पष्ट tiers हैं। Datacenter side पर, NVIDIA का H100 (80GB HBM3) 2023 से AI प्रशिक्षण का workhorse रहा है, H200 (141GB HBM3e) के साथ बड़े मॉडलों के लिए अधिक मेमोरी प्रदान करता है। B200 और GB200 अगली पीढ़ी का प्रतिनिधित्व करते हैं। Inference के लिए विशेष रूप से, L40S (48GB GDDR6X) एक सस्ता विकल्प प्रदान करता है जब आपको raw प्रशिक्षण throughput की आवश्यकता नहीं होती। उपभोक्ता side पर, 24GB GDDR6X वाला RTX 4090 local AI का king है — quantized 14B-parameter मॉडलों को आराम से चलाने के लिए पर्याप्त VRAM, हालाँकि इस पर कुछ भी गंभीर प्रशिक्षण देना अव्यवहारिक है। उपभोक्ता और datacenter के बीच का gap केवल VRAM नहीं है — यह memory bandwidth है। एक H100 4090 के 1 TB/s के विरुद्ध 3 TB/s से अधिक memory bandwidth push करता है, और बड़े भाषा मॉडल inference के लिए, memory bandwidth अक्सर वास्तविक bottleneck है।

एक card से परे scaling

एक चीज़ जो practitioners जल्दी सीखते हैं वह यह है कि "एक GPU होना" और "पर्याप्त GPU होना" बहुत अलग स्थितियाँ हैं। एक एकल मॉडल पर inference चलाना एक बात है, लेकिन एक आधुनिक LLM को प्रशिक्षित करने के लिए NVLink या InfiniBand जैसे high-speed interconnects द्वारा connected कई GPUs की एक साथ काम करने की आवश्यकता होती है। एक 8-GPU H100 node (DGX H100) की लागत लगभग $300,000 है और एक 70B मॉडल को प्रशिक्षित कर सकता है — लेकिन GPT-4 या Claude जैसे फ्रंटियर मॉडलों को महीनों के लिए हज़ारों GPUs की आवश्यकता होने की संभावना है। यही कारण है कि cloud GPU rental (Lambda, DataCrunch, CoreWeave, या hyperscalers जैसे providers से) मानक दृष्टिकोण बन गया है: आप अपने प्रशिक्षण रन के लिए एक cluster किराए पर लेते हैं और जब आप समाप्त हो जाते हैं तो इसे वापस दे देते हैं, बजाय hardware खरीदने के जो दो साल में outdated हो जाएगा।

GPU

यह क्यों मायने रखता है

गहन अध्ययन

CUDA खाई

Hardware tiers

एक card से परे scaling

संबंधित अवधारणाएँ