LayerNorm (Ba et al., 2016) एक एकल प्रशिक्षण उदाहरण के भीतर सभी activations के माध्य और विचरण की गणना करता है और उन्हें शून्य माध्य और इकाई विचरण में सामान्यीकृत करता है, फिर सीखे गए स्केल और शिफ्ट पैरामीटर लागू करता है। यह सुनिश्चित करता है कि इनपुट परिमाण की परवाह किए बिना, प्रत्येक परत को सुसंगत वितरण वाले इनपुट प्राप्त होते हैं। यह Transformers में मानक है।
RMSNorm (Zhang & Sennrich, 2019) माध्य केंद्रीकरण को हटाकर और केवल root mean square द्वारा सामान्यीकरण करके LayerNorm को सरल बनाता है: x / sqrt(mean(x²))। यह कम्प्यूटेशनल रूप से सस्ता है (केंद्रीकरण के लिए माध्य की गणना की आवश्यकता नहीं) और तुलनीय प्रदर्शन करता है। LLaMA, Mistral, और अधिकांश आधुनिक LLMs LayerNorm के बजाय RMSNorm का उपयोग करते हैं।
मूल Transformer ने attention/feed-forward ब्लॉक के बाद normalization रखा (post-norm)। आधुनिक आर्किटेक्चर लगभग सार्वभौमिक रूप से pre-norm का उपयोग करते हैं: ब्लॉक से गुज़रने से पहले इनपुट को सामान्यीकृत करें, फिर residual जोड़ें। Pre-norm प्रशिक्षण के दौरान अधिक स्थिर है (विशेष रूप से बड़े पैमाने पर) और learning rate warmup के बिना प्रशिक्षण की अनुमति देता है। यह प्रतीत होने वाला मामूली आर्किटेक्चरल विकल्प प्रशिक्षण स्थिरता पर महत्वपूर्ण प्रभाव डालता है।