Zubnet AIसीखेंWiki › Normalization
प्रशिक्षण

Normalization

इसे भी कहा जाता है: LayerNorm, RMSNorm, BatchNorm
ऐसी तकनीकें जो नेटवर्क के माध्यम से बहने वाले मानों को सुसंगत पैमाने पर सामान्यीकृत करके न्यूरल नेटवर्क प्रशिक्षण को स्थिर करती हैं। Layer Normalization (LayerNorm) प्रत्येक उदाहरण के भीतर विशेषताओं में सामान्यीकरण करता है। RMSNorm एक सरलीकृत संस्करण है। Batch Normalization (BatchNorm) बैच में सामान्यीकरण करता है। प्रत्येक Transformer परतों के बीच किसी न किसी प्रकार के normalization का उपयोग करता है।

यह क्यों मायने रखता है

Normalization के बिना, गहरे नेटवर्क को प्रशिक्षित करना अत्यंत कठिन है — activations परतों में विस्फोट या गायब हो सकती हैं, जिससे gradient descent अस्थिर हो जाता है। Normalization उन सादी तकनीकों में से एक है जो बिल्कुल आवश्यक है: इसे किसी भी आधुनिक आर्किटेक्चर से हटा दें और प्रशिक्षण ध्वस्त हो जाता है।

गहन अध्ययन

LayerNorm (Ba et al., 2016) एक एकल प्रशिक्षण उदाहरण के भीतर सभी activations के माध्य और विचरण की गणना करता है और उन्हें शून्य माध्य और इकाई विचरण में सामान्यीकृत करता है, फिर सीखे गए स्केल और शिफ्ट पैरामीटर लागू करता है। यह सुनिश्चित करता है कि इनपुट परिमाण की परवाह किए बिना, प्रत्येक परत को सुसंगत वितरण वाले इनपुट प्राप्त होते हैं। यह Transformers में मानक है।

RMSNorm: आधुनिक डिफ़ॉल्ट

RMSNorm (Zhang & Sennrich, 2019) माध्य केंद्रीकरण को हटाकर और केवल root mean square द्वारा सामान्यीकरण करके LayerNorm को सरल बनाता है: x / sqrt(mean(x²))। यह कम्प्यूटेशनल रूप से सस्ता है (केंद्रीकरण के लिए माध्य की गणना की आवश्यकता नहीं) और तुलनीय प्रदर्शन करता है। LLaMA, Mistral, और अधिकांश आधुनिक LLMs LayerNorm के बजाय RMSNorm का उपयोग करते हैं।

Pre-Norm बनाम Post-Norm

मूल Transformer ने attention/feed-forward ब्लॉक के बाद normalization रखा (post-norm)। आधुनिक आर्किटेक्चर लगभग सार्वभौमिक रूप से pre-norm का उपयोग करते हैं: ब्लॉक से गुज़रने से पहले इनपुट को सामान्यीकृत करें, फिर residual जोड़ें। Pre-norm प्रशिक्षण के दौरान अधिक स्थिर है (विशेष रूप से बड़े पैमाने पर) और learning rate warmup के बिना प्रशिक्षण की अनुमति देता है। यह प्रतीत होने वाला मामूली आर्किटेक्चरल विकल्प प्रशिक्षण स्थिरता पर महत्वपूर्ण प्रभाव डालता है।

संबंधित अवधारणाएँ

← सभी शब्द
← Negative Prompt NVIDIA →