LayerNorm (Ba et al., 2016) calcula la media y varianza de todas las activaciones dentro de un solo ejemplo de entrenamiento y las normaliza a media cero y varianza unitaria, luego aplica parámetros aprendidos de escala y desplazamiento. Esto asegura que, sin importar la magnitud de la entrada, cada capa reciba entradas con una distribución consistente. Es el estándar en Transformers.
RMSNorm (Zhang & Sennrich, 2019) simplifica LayerNorm eliminando el centrado de media y normalizando solo por la raíz cuadrada media: x / sqrt(mean(x²)). Esto es computacionalmente más barato (no necesita calcular la media para centrar) y rinde de forma comparable. LLaMA, Mistral y la mayoría de los LLMs modernos usan RMSNorm en lugar de LayerNorm.
El Transformer original colocaba la normalización después del bloque de atención/feed-forward (post-norm). Las arquitecturas modernas casi universalmente usan pre-norm: normalizar la entrada antes de pasarla por el bloque, luego agregar el residual. Pre-norm es más estable durante el entrenamiento (especialmente a gran escala) y permite entrenar sin warmup de learning rate. Esta elección arquitectónica aparentemente menor tiene un impacto significativo en la estabilidad del entrenamiento.