LayerNorm(Ba 等人,2016 年)計算單一訓練樣本中所有啟動值的均值和方差,將它們正規化為零均值和單位方差,然後應用可學習的縮放和偏移參數。這確保無論輸入幅度如何,每一層都接收具有一致分布的輸入。它是 Transformer 的標準。
RMSNorm(Zhang & Sennrich,2019 年)透過移除均值中心化、僅按均方根進行正規化來簡化 LayerNorm:x / sqrt(mean(x²))。這在計算上更便宜(不需要計算均值來中心化),且表現相當。LLaMA、Mistral 和大多數現代 LLM 使用 RMSNorm 而非 LayerNorm。
原始 Transformer 將正規化放在注意力/前饋區塊之後(後正規化)。現代架構幾乎普遍使用前正規化:在將輸入傳入區塊之前進行正規化,然後加上殘差。前正規化在訓練期間(尤其是大規模訓練時)更穩定,且允許在沒有學習率預熱的情況下進行訓練。這個看似微小的架構選擇對訓練穩定性有重大影響。