Zubnet AIApprendreWiki › Normalisation
Entraînement

Normalisation

Aussi appelé : LayerNorm, RMSNorm, BatchNorm
Des techniques qui stabilisent l'entraînement des réseaux de neurones en normalisant les valeurs circulant dans le réseau pour avoir une échelle cohérente. Layer Normalization (LayerNorm) normalise à travers les caractéristiques au sein de chaque exemple. RMSNorm est une variante simplifiée. Batch Normalization (BatchNorm) normalise à travers le lot. Chaque Transformer utilise une forme de normalisation entre les couches.

Pourquoi c'est important

Sans normalisation, les réseaux profonds sont extrêmement difficiles à entraîner — les activations peuvent exploser ou s'évanouir à travers les couches, rendant la descente de gradient instable. La normalisation est une de ces techniques peu glamour qui est absolument essentielle : retire-la de n'importe quelle architecture moderne et l'entraînement s'effondre.

En profondeur

LayerNorm (Ba et al., 2016) calcule la moyenne et la variance de toutes les activations au sein d'un seul exemple d'entraînement et les normalise à moyenne zéro et variance unitaire, puis applique des paramètres appris d'échelle et de décalage. Cela garantit que, quelle que soit l'amplitude de l'entrée, chaque couche reçoit des entrées avec une distribution cohérente. C'est le standard dans les Transformers.

RMSNorm : le choix moderne par défaut

RMSNorm (Zhang & Sennrich, 2019) simplifie LayerNorm en supprimant le centrage par la moyenne et en normalisant uniquement par la racine carrée de la moyenne des carrés : x / sqrt(mean(x²)). C'est moins coûteux en calcul (pas besoin de calculer la moyenne pour le centrage) et les performances sont comparables. LLaMA, Mistral et la plupart des LLM modernes utilisent RMSNorm au lieu de LayerNorm.

Pre-Norm vs. Post-Norm

Le Transformer original plaçait la normalisation après le bloc attention/feed-forward (post-norm). Les architectures modernes utilisent quasi universellement le pre-norm : normaliser l'entrée avant de la passer à travers le bloc, puis ajouter le résidu. Le pre-norm est plus stable durant l'entraînement (surtout à grande échelle) et permet l'entraînement sans préchauffage du taux d'apprentissage. Ce choix architectural apparemment mineur a un impact significatif sur la stabilité de l'entraînement.

Concepts connexes

← Tous les termes
← Neurone NVIDIA →
ESC