Zubnet AIसीखेंWiki › Dropout
प्रशिक्षण

Dropout

इसे भी कहा जाता है: Regularization, Weight Decay
एक regularization तकनीक जो प्रत्येक प्रशिक्षण चरण के दौरान न्यूरॉन्स के एक अंश को उनके आउटपुट को शून्य पर सेट करके यादृच्छिक रूप से "बंद" कर देती है। यह नेटवर्क को किसी एक न्यूरॉन पर बहुत अधिक निर्भर होने से रोकता है, इसे वितरित, मज़बूत प्रतिनिधित्व सीखने के लिए मजबूर करता है। Inference के समय, सभी न्यूरॉन सक्रिय होते हैं लेकिन तदनुसार स्केल किए जाते हैं।

यह क्यों मायने रखता है

Dropout ओवरफिटिंग के खिलाफ सबसे सरल और सबसे व्यापक रूप से उपयोग किया जाने वाला बचाव है। Regularization के बिना, बड़े न्यूरल नेटवर्क सामान्यीकरण योग्य पैटर्न सीखने के बजाय प्रशिक्षण डेटा को याद कर लेते हैं। Dropout (और इसके चचेरे भाई weight decay) इसलिए हैं कि मॉडल अपने प्रशिक्षण सेट से बहुत बड़े हो सकते हैं बिना सब कुछ याद किए।

गहन अध्ययन

अंतर्ज्ञान: dropout उप-नेटवर्क का एक ensemble प्रशिक्षित करता है। प्रत्येक प्रशिक्षण चरण न्यूरॉन्स के एक अलग यादृच्छिक उपसमुच्चय का उपयोग करता है, प्रभावी रूप से प्रत्येक बार एक अलग आर्किटेक्चर प्रशिक्षित करता है। Inference पर, सभी न्यूरॉन्स का उपयोग करना इन सभी उप-नेटवर्क की भविष्यवाणियों को औसत करने का अनुमान लगाता है। यह ensemble प्रभाव मज़बूती प्रदान करता है — कोई एक न्यूरॉन एकल विफलता बिंदु नहीं बन सकता।

LLMs में Dropout

दिलचस्प बात यह है कि कई आधुनिक LLMs प्री-ट्रेनिंग के दौरान बहुत कम या बिल्कुल dropout का उपयोग नहीं करते। ट्रिलियन टोकन पर प्रशिक्षित अरबों पैरामीटर के पैमाने पर, ओवरफिटिंग कम चिंता का विषय है क्योंकि मॉडल कभी भी एक ही डेटा को दो बार नहीं देखता (या शायद ही कभी)। प्रशिक्षण डेटा मॉडल क्षमता के सापेक्ष इतना विशाल है कि मॉडल प्रभावी रूप से हमेशा underfitting शासन में होता है। इस पैमाने पर Weight decay (L2 regularization) अधिक सामान्य रूप से उपयोग किया जाता है।

वेरिएंट

DropPath (stochastic depth) व्यक्तिगत न्यूरॉन्स के बजाय पूरी परतें छोड़ता है — Vision Transformers में उपयोग किया जाता है। DropConnect न्यूरॉन्स के बजाय व्यक्तिगत वज़न छोड़ता है। Attention dropout मॉडल को विशिष्ट स्थितियों पर केंद्रित होने से रोकने के लिए attention वज़न छोड़ता है। प्रत्येक वेरिएंट ओवरफिटिंग के एक अलग पहलू को संबोधित करता है लेकिन मूल विचार साझा करता है: प्रशिक्षण के दौरान नियंत्रित यादृच्छिकता अति-विशेषज्ञता को रोकती है।

संबंधित अवधारणाएँ

← सभी शब्द
← DPO Early Stopping →