अंतर्ज्ञान: dropout उप-नेटवर्क का एक ensemble प्रशिक्षित करता है। प्रत्येक प्रशिक्षण चरण न्यूरॉन्स के एक अलग यादृच्छिक उपसमुच्चय का उपयोग करता है, प्रभावी रूप से प्रत्येक बार एक अलग आर्किटेक्चर प्रशिक्षित करता है। Inference पर, सभी न्यूरॉन्स का उपयोग करना इन सभी उप-नेटवर्क की भविष्यवाणियों को औसत करने का अनुमान लगाता है। यह ensemble प्रभाव मज़बूती प्रदान करता है — कोई एक न्यूरॉन एकल विफलता बिंदु नहीं बन सकता।
दिलचस्प बात यह है कि कई आधुनिक LLMs प्री-ट्रेनिंग के दौरान बहुत कम या बिल्कुल dropout का उपयोग नहीं करते। ट्रिलियन टोकन पर प्रशिक्षित अरबों पैरामीटर के पैमाने पर, ओवरफिटिंग कम चिंता का विषय है क्योंकि मॉडल कभी भी एक ही डेटा को दो बार नहीं देखता (या शायद ही कभी)। प्रशिक्षण डेटा मॉडल क्षमता के सापेक्ष इतना विशाल है कि मॉडल प्रभावी रूप से हमेशा underfitting शासन में होता है। इस पैमाने पर Weight decay (L2 regularization) अधिक सामान्य रूप से उपयोग किया जाता है।
DropPath (stochastic depth) व्यक्तिगत न्यूरॉन्स के बजाय पूरी परतें छोड़ता है — Vision Transformers में उपयोग किया जाता है। DropConnect न्यूरॉन्स के बजाय व्यक्तिगत वज़न छोड़ता है। Attention dropout मॉडल को विशिष्ट स्थितियों पर केंद्रित होने से रोकने के लिए attention वज़न छोड़ता है। प्रत्येक वेरिएंट ओवरफिटिंग के एक अलग पहलू को संबोधित करता है लेकिन मूल विचार साझा करता है: प्रशिक्षण के दौरान नियंत्रित यादृच्छिकता अति-विशेषज्ञता को रोकती है।