VRAM: परिभाषा और अर्थ — AI विकी

एक GPU पर मेमोरी, सिस्टम RAM से अलग। AI मॉडल एक GPU पर चले ताकि वे VRAM में फिट हों। 16-बिट प्रिसीजन में 7B पैरामीटर मॉडल के लिए ~14GB VRAM की आवश्यकता होती है। कंज्यूमर GPUs में 8-24GB होते हैं; डेटासेंटर GPUs (A100, H100) में 40-80GB होते हैं। VRAM लोकल AI के लिए लगभग हमेशा बॉटलनेक होता है।

यह क्यों मायने रखता है

VRAM यह निर्धारित करता है कि आप कौन से मॉडल चला सकते हैं। यही कारण है कि क्वांटाइजेशन मौजूद है (मॉडल को छोटा करके फिट करने के लिए), क्योंकि MoE मॉडल जटिल होते हैं (सभी एक्सपर्ट VRAM में फिट होने चाहिए), और यही कारण है कि GPU की कीमत याददाश्त के साथ इतनी तेजी से बढ़ती है। "क्या यह VRAM में फिट होगा?" स्व-होस्टिंग AI के लिए पहला प्रश्न है।

गहन अध्ययन

VRAM (वीडियो रैम) एक अलग फिजिकल मेमोरी चिप होती है जो GPU बोर्ड पर सोल्डर की जाती है, आपके सिस्टम के मुख्य RAM से अलग। इसका अस्तित्व अलग होने का कारण बैंडविड्थ है — एक GPU और इसके VRAM के बीच कनेक्शन एक CPU और सिस्टम RAM के बीच के कनेक्शन से बहुत अधिक वाइड होता है। एक NVIDIA H100 अपने HBM3 (हाई बैंडविड्थ मेमोरी) स्टैक के लिए 3.3 टीबी/सेकंड से अधिक मेमोरी बैंडविड्थ प्राप्त करता है, जबकि एक सामान्य DDR5 सिस्टम 50-80 जीबी/सेकंड के बीच प्रबंधित कर सकता है। AI अनुमान के लिए, जहां प्रत्येक टोकन उत्पन्न करते समय बिलियनों वेट पैरामीटर को मेमोरी से पढ़ना बैंडविड्थ के बैकबोन होता है, यह बैंडविड्थ के अंतर के कारण एक मॉडल को GPU पर चलाना CPU पर चलाने की तुलना में बहुत तेज होता है — भले ही CPU के पास पर्याप्त सिस्टम RAM हो।

बजट के आकार

एक मॉडल के लिए VRAM आवश्यकताओं की गणना करना एक सरल गणित है, लेकिन कुछ छोटे अपवाद होते हैं। मूल सूत्र: अपने प्रिसिजन फॉर्मेट के लिए प्रति पैरामीटर बाइट्स के साथ पैरामीटर की संख्या को गुणा करें। एक 7B मॉडल FP16 (2 बाइट्स प्रति पैरामीटर) में 14 जीबी की आवश्यकता होती है केवल वेट के लिए। लेकिन वेट ही VRAM में नहीं रहते। अनुमान के दौरान, आपको KV कैश (ध्यान की गणना से लिए गए संग्रहीत की-वैल्यू जोड़े) के लिए भी जगह की आवश्यकता होती है — जो कंटेक्स्ट लंबाई के साथ बढ़ते हैं। 7B मॉडल 4,096-टोकन कंटेक्स्ट पर चलते समय, KV कैश 1-2 जीबी जोड़ सकता है। इसे 128K टोकन तक बढ़ाएं और KV कैश ही 20-40 जीबी खर्च कर सकता है। यही कारण है कि लंबे कंटेक्स्ट मॉडलों को अपने पैरामीटर की संख्या के अनुसार बहुत अधिक VRAM की आवश्यकता होती है, और यही कारण है कि भले ही पावरफुल हार्डवेयर हो, कंटेक्स्ट विंडो सीमा विद्यमान होती है।

ट्रेनिंग बनाम अनुमान

ट्रेनिंग अनुमान की तुलना में बहुत अधिक VRAM लेने वाला होता है। मॉडल वेट के अलावा, ट्रेनिंग में ऑप्टिमाइज़र स्टेट (एडम द्वारा प्रत्येक पैरामीटर के लिए दो अतिरिक्त कॉपी रखता है — यह वेट साइज के 3 गुना हो जाता है), ग्रेडिएंट (एक अतिरिक्त 1x), और एक्टिवेशन (बैकप्रोपैगेशन के लिए आवश्यक मध्यवर्ती मान, जो बैच साइज और सीक्वेंस लंबाई के साथ पैमाने पर बढ़ते हैं) के लिए भी स्पेस की आवश्यकता होती है। एक नियम के रूप में: BF16 में ट्रेनिंग और एडम ऑप्टिमाइज़र के साथ प्रति पैरामीटर लगभग 18-20 बाइट्स की आवश्यकता होती है। 7B मॉडल को ट्रेनिंग स्टेट के लिए लगभग 140 जीबी की आवश्यकता होती है — जो कोई भी एकल कंज्यूमर GPU नहीं रखता है। इसी कारण से FSDP (फुली शेड डेटा पैरेलेलिज़म), ग्रेडिएंट चेकपॉइंटिंग, और मिश्रित-प्रिसिजन ट्रेनिंग जैसी तकनीकों का अस्तित्व है: वे या तो स्मृति उपयोग को वितरित करते हैं या कम करते हैं ताकि आप वास्तव में उपलब्ध हार्डवेयर पर ट्रेनिंग कर सकें, लेकिन इसकी कीमत गति या कम्प्यूटेशन ओवरहेड के रूप में भुगतान करें।

हार्डवेयर लैंडस्केप

कंज्यूमर VRAM लैंडस्केप लोकल AI के

VRAM

यह क्यों मायने रखता है

गहन अध्ययन

बजट के आकार

ट्रेनिंग बनाम अनुमान

हार्डवेयर लैंडस्केप

संबंधित अवधारणाएँ