Zubnet AIAprenderWiki › Normalização
Treinamento

Normalização

Também conhecido como: LayerNorm, RMSNorm, BatchNorm
Técnicas que estabilizam o treinamento de redes neurais normalizando os valores que fluem pela rede para ter escala consistente. Layer Normalization (LayerNorm) normaliza através das características dentro de cada exemplo. RMSNorm é uma variante simplificada. Batch Normalization (BatchNorm) normaliza ao longo do batch. Todo Transformer usa alguma forma de normalização entre camadas.

Por que isso importa

Sem normalização, redes profundas são extremamente difíceis de treinar — ativações podem explodir ou desaparecer entre camadas, tornando o gradient descent instável. Normalização é uma daquelas técnicas sem glamour que são absolutamente essenciais: remova-a de qualquer arquitetura moderna e o treinamento colapsa.

Em profundidade

LayerNorm (Ba et al., 2016) calcula a média e variância de todas as ativações dentro de um único exemplo de treinamento e as normaliza para média zero e variância unitária, depois aplica parâmetros aprendidos de escala e deslocamento. Isso garante que, independente da magnitude da entrada, cada camada recebe entradas com distribuição consistente. É o padrão em Transformers.

RMSNorm: O Padrão Moderno

RMSNorm (Zhang & Sennrich, 2019) simplifica LayerNorm removendo a centralização na média e normalizando apenas pela raiz da média quadrática: x / sqrt(mean(x²)). Isso é computacionalmente mais barato (sem necessidade de calcular média para centralização) e tem desempenho comparável. LLaMA, Mistral e a maioria dos LLMs modernos usam RMSNorm em vez de LayerNorm.

Pre-Norm vs. Post-Norm

O Transformer original colocava normalização após o bloco de attention/feed-forward (post-norm). Arquiteturas modernas quase universalmente usam pre-norm: normalizar a entrada antes de passá-la pelo bloco, depois adicionar o residual. Pre-norm é mais estável durante o treinamento (especialmente em grande escala) e permite treinar sem warmup de learning rate. Essa escolha arquitetural aparentemente menor tem impacto significativo na estabilidade do treinamento.

Conceitos relacionados

← Todos os termos
← Neurônio NVIDIA →