Zubnet AIAprenderWiki › Normalización
Entrenamiento

Normalización

LayerNorm, RMSNorm, BatchNorm
Técnicas que estabilizan el entrenamiento de redes neuronales normalizando los valores que fluyen a través de la red para que tengan una escala consistente. Layer Normalization (LayerNorm) normaliza a través de las características dentro de cada ejemplo. RMSNorm es una variante simplificada. Batch Normalization (BatchNorm) normaliza a través del batch. Cada Transformer usa alguna forma de normalización entre capas.

Por qué importa

Sin normalización, las redes profundas son extremadamente difíciles de entrenar — las activaciones pueden explotar o desvanecerse entre capas, haciendo el descenso de gradiente inestable. La normalización es una de esas técnicas poco glamorosas que es absolutamente esencial: quita la normalización de cualquier arquitectura moderna y el entrenamiento colapsa.

En profundidad

LayerNorm (Ba et al., 2016) calcula la media y varianza de todas las activaciones dentro de un solo ejemplo de entrenamiento y las normaliza a media cero y varianza unitaria, luego aplica parámetros aprendidos de escala y desplazamiento. Esto asegura que, sin importar la magnitud de la entrada, cada capa reciba entradas con una distribución consistente. Es el estándar en Transformers.

RMSNorm: El Estándar Moderno

RMSNorm (Zhang & Sennrich, 2019) simplifica LayerNorm eliminando el centrado de media y normalizando solo por la raíz cuadrada media: x / sqrt(mean(x²)). Esto es computacionalmente más barato (no necesita calcular la media para centrar) y rinde de forma comparable. LLaMA, Mistral y la mayoría de los LLMs modernos usan RMSNorm en lugar de LayerNorm.

Pre-Norm vs. Post-Norm

El Transformer original colocaba la normalización después del bloque de atención/feed-forward (post-norm). Las arquitecturas modernas casi universalmente usan pre-norm: normalizar la entrada antes de pasarla por el bloque, luego agregar el residual. Pre-norm es más estable durante el entrenamiento (especialmente a gran escala) y permite entrenar sin warmup de learning rate. Esta elección arquitectónica aparentemente menor tiene un impacto significativo en la estabilidad del entrenamiento.

Conceptos relacionados

← Todos los términos
← Neurona NVIDIA →
ESC