Zubnet AIसीखेंWiki › मिश्रित सटीकता प्रशिक्षण (Mixed Precision)
प्रशिक्षण

मिश्रित सटीकता प्रशिक्षण (Mixed Precision)

इसे भी कहा जाता है: FP16, BF16, आधी सटीकता
न्यूरल नेटवर्क को कम-सटीकता संख्या प्रारूपों (32-बिट के बजाय 16-बिट) में अधिकांश गणनाओं के लिए प्रशिक्षित करना जबकि महत्वपूर्ण ऑपरेशन पूर्ण सटीकता में रखना। यह GPUs की प्रभावी मेमोरी क्षमता और गणना गति को दोगुना कर देता है जिसमें मॉडल गुणवत्ता पर न्यूनतम प्रभाव होता है। BF16 (bfloat16) LLM प्रशिक्षण का मानक है; FP16 inference के लिए उपयोग किया जाता है।

यह क्यों मायने रखता है

मिश्रित सटीकता ही कारण है कि हम जितने बड़े मॉडल प्रशिक्षित कर सकते हैं। FP32 में 70B पैरामीटर मॉडल को सिर्फ भारों के लिए 280 GB की आवश्यकता होगी — किसी भी एकल GPU पर असंभव। BF16 में, इसे 140 GB की आवश्यकता है, जो कुछ GPUs में फिट होता है। मिश्रित सटीकता ने AI उद्योग की कम्प्यूट क्षमता को प्रभावी रूप से मुफ़्त में दोगुना कर दिया, बस एक बुद्धिमान संख्या प्रारूप का उपयोग करके।

गहन अध्ययन

मुख्य अंतर्दृष्टि: अधिकांश न्यूरल नेटवर्क गणनाओं को 32 बिट सटीकता की आवश्यकता नहीं है। भार, एक्टिवेशन, और ग्रेडिएंट को 16 बिट में बिना सार्थक गुणवत्ता हानि के प्रदर्शित किया जा सकता है। लेकिन कुछ ऑपरेशनों (loss गणना, भार अपडेट) को सांख्यिकीय अस्थिरता से बचने के लिए उच्च सटीकता की आवश्यकता होती है। मिश्रित सटीकता अपडेट के लिए FP32 में भारों की एक मास्टर कॉपी रखती है, जबकि forward और backward पास के लिए FP16/BF16 का उपयोग करती है।

BF16 बनाम FP16

FP16 (IEEE आधी-सटीकता) में 5 exponent बिट और 10 mantissa बिट हैं। BF16 (Brain Float 16) में 8 exponent बिट और 7 mantissa बिट हैं। BF16 की व्यापक exponent श्रेणी का अर्थ है कि यह FP32 के समान मूल्यों की श्रेणी का प्रतिनिधित्व कर सकता है (overflow/underflow से बचते हुए), जबकि FP16 की संकीर्ण श्रेणी को ग्रेडिएंट को शून्य तक underflow होने से रोकने के लिए loss scaling की आवश्यकता होती है। प्रशिक्षण के लिए, BF16 सरल और अधिक स्थिर है। Inference के लिए, FP16 कभी-कभी समान मेमोरी लागत पर थोड़ी बेहतर सटीकता प्रदान करता है।

FP8 और उससे आगे

नवीनतम GPUs (NVIDIA H100, H200) और भी तेज़ गणना के लिए FP8 (8-बिट floating point) का समर्थन करते हैं। FP8 FP16 की तुलना में मेमोरी को आधा करता है और थ्रूपुट को दोगुना करता है, लेकिन गुणवत्ता क्षरण से बचने के लिए सावधानीपूर्वक संभालना ज़रूरी है। वर्तमान अभ्यास: BF16 में प्रशिक्षण, FP16 या FP8 में सर्व, और एज डिप्लॉयमेंट के लिए INT4/INT8 में quantize। सटीकता में प्रत्येक कदम नीचे गुणवत्ता की थोड़ी मात्रा को गति और मेमोरी लाभ के लिए ट्रेड करता है।

संबंधित अवधारणाएँ

← सभी शब्द
← मिक्सचर ऑफ़ एक्सपर्ट्स मूल्यांकन →
ESC