LayerNorm (Ba et al., 2016) calcula a média e variância de todas as ativações dentro de um único exemplo de treinamento e as normaliza para média zero e variância unitária, depois aplica parâmetros aprendidos de escala e deslocamento. Isso garante que, independente da magnitude da entrada, cada camada recebe entradas com distribuição consistente. É o padrão em Transformers.
RMSNorm (Zhang & Sennrich, 2019) simplifica LayerNorm removendo a centralização na média e normalizando apenas pela raiz da média quadrática: x / sqrt(mean(x²)). Isso é computacionalmente mais barato (sem necessidade de calcular média para centralização) e tem desempenho comparável. LLaMA, Mistral e a maioria dos LLMs modernos usam RMSNorm em vez de LayerNorm.
O Transformer original colocava normalização após o bloco de attention/feed-forward (post-norm). Arquiteturas modernas quase universalmente usam pre-norm: normalizar a entrada antes de passá-la pelo bloco, depois adicionar o residual. Pre-norm é mais estável durante o treinamento (especialmente em grande escala) e permite treinar sem warmup de learning rate. Essa escolha arquitetural aparentemente menor tem impacto significativo na estabilidade do treinamento.