VRAM (वीडियो रैम) एक अलग फिजिकल मेमोरी चिप होती है जो GPU बोर्ड पर सोल्डर की जाती है, आपके सिस्टम के मुख्य RAM से अलग। इसका अस्तित्व अलग होने का कारण बैंडविड्थ है — एक GPU और इसके VRAM के बीच कनेक्शन एक CPU और सिस्टम RAM के बीच के कनेक्शन से बहुत अधिक वाइड होता है। एक NVIDIA H100 अपने HBM3 (हाई बैंडविड्थ मेमोरी) स्टैक के लिए 3.3 टीबी/सेकंड से अधिक मेमोरी बैंडविड्थ प्राप्त करता है, जबकि एक सामान्य DDR5 सिस्टम 50-80 जीबी/सेकंड के बीच प्रबंधित कर सकता है। AI अनुमान के लिए, जहां प्रत्येक टोकन उत्पन्न करते समय बिलियनों वेट पैरामीटर को मेमोरी से पढ़ना बैंडविड्थ के बैकबोन होता है, यह बैंडविड्थ के अंतर के कारण एक मॉडल को GPU पर चलाना CPU पर चलाने की तुलना में बहुत तेज होता है — भले ही CPU के पास पर्याप्त सिस्टम RAM हो।
एक मॉडल के लिए VRAM आवश्यकताओं की गणना करना एक सरल गणित है, लेकिन कुछ छोटे अपवाद होते हैं। मूल सूत्र: अपने प्रिसिजन फॉर्मेट के लिए प्रति पैरामीटर बाइट्स के साथ पैरामीटर की संख्या को गुणा करें। एक 7B मॉडल FP16 (2 बाइट्स प्रति पैरामीटर) में 14 जीबी की आवश्यकता होती है केवल वेट के लिए। लेकिन वेट ही VRAM में नहीं रहते। अनुमान के दौरान, आपको KV कैश (ध्यान की गणना से लिए गए संग्रहीत की-वैल्यू जोड़े) के लिए भी जगह की आवश्यकता होती है — जो कंटेक्स्ट लंबाई के साथ बढ़ते हैं। 7B मॉडल 4,096-टोकन कंटेक्स्ट पर चलते समय, KV कैश 1-2 जीबी जोड़ सकता है। इसे 128K टोकन तक बढ़ाएं और KV कैश ही 20-40 जीबी खर्च कर सकता है। यही कारण है कि लंबे कंटेक्स्ट मॉडलों को अपने पैरामीटर की संख्या के अनुसार बहुत अधिक VRAM की आवश्यकता होती है, और यही कारण है कि भले ही पावरफुल हार्डवेयर हो, कंटेक्स्ट विंडो सीमा विद्यमान होती है।
ट्रेनिंग अनुमान की तुलना में बहुत अधिक VRAM लेने वाला होता है। मॉडल वेट के अलावा, ट्रेनिंग में ऑप्टिमाइज़र स्टेट (एडम द्वारा प्रत्येक पैरामीटर के लिए दो अतिरिक्त कॉपी रखता है — यह वेट साइज के 3 गुना हो जाता है), ग्रेडिएंट (एक अतिरिक्त 1x), और एक्टिवेशन (बैकप्रोपैगेशन के लिए आवश्यक मध्यवर्ती मान, जो बैच साइज और सीक्वेंस लंबाई के साथ पैमाने पर बढ़ते हैं) के लिए भी स्पेस की आवश्यकता होती है। एक नियम के रूप में: BF16 में ट्रेनिंग और एडम ऑप्टिमाइज़र के साथ प्रति पैरामीटर लगभग 18-20 बाइट्स की आवश्यकता होती है। 7B मॉडल को ट्रेनिंग स्टेट के लिए लगभग 140 जीबी की आवश्यकता होती है — जो कोई भी एकल कंज्यूमर GPU नहीं रखता है। इसी कारण से FSDP (फुली शेड डेटा पैरेलेलिज़म), ग्रेडिएंट चेकपॉइंटिंग, और मिश्रित-प्रिसिजन ट्रेनिंग जैसी तकनीकों का अस्तित्व है: वे या तो स्मृति उपयोग को वितरित करते हैं या कम करते हैं ताकि आप वास्तव में उपलब्ध हार्डवेयर पर ट्रेनिंग कर सकें, लेकिन इसकी कीमत गति या कम्प्यूटेशन ओवरहेड के रूप में भुगतान करें।
कंज्यूमर VRAM लैंडस्केप लोकल AI के