Dropout : Définition et signification — Wiki IA

Une technique de régularisation qui « éteint » aléatoirement une fraction des neurones pendant chaque étape d'entraînement en mettant leurs sorties à zéro. Cela empêche le réseau de trop dépendre d'un seul neurone, le forçant à apprendre des représentations distribuées et robustes. À l'inférence, tous les neurones sont actifs mais mis à l'échelle en conséquence.

Pourquoi c'est important

Le dropout est la défense la plus simple et la plus utilisée contre le surajustement. Sans régularisation, les grands réseaux de neurones mémorisent les données d'entraînement au lieu d'apprendre des patterns généralisables. Le dropout (et son cousin la décroissance des poids) expliquent pourquoi les modèles peuvent être beaucoup plus grands que leurs ensembles d'entraînement sans tout mémoriser.

En profondeur

L'intuition : le dropout entraîne un ensemble de sous-réseaux. Chaque étape d'entraînement utilise un sous-ensemble aléatoire différent de neurones, entraînant effectivement une architecture différente à chaque fois. À l'inférence, utiliser tous les neurones approxime la moyenne des prédictions de tous ces sous-réseaux. Cet effet d'ensemble est ce qui fournit la robustesse — aucun neurone individuel ne peut devenir un point de défaillance unique.

Le dropout dans les LLM

Fait intéressant, beaucoup de LLM modernes utilisent peu ou pas de dropout pendant le pré-entraînement. À l'échelle de milliards de paramètres entraînés sur des trillions de tokens, le surajustement est moins une préoccupation parce que le modèle ne voit jamais les mêmes données deux fois (ou rarement). Les données d'entraînement sont si vastes par rapport à la capacité du modèle que celui-ci est effectivement toujours en régime de sous-ajustement. La décroissance des poids (régularisation L2) est plus couramment utilisée à cette échelle.

Variantes

DropPath (profondeur stochastique) supprime des couches entières au lieu de neurones individuels — utilisé dans les Vision Transformers. DropConnect supprime des poids individuels au lieu de neurones. L'attention dropout supprime des poids d'attention pour empêcher le modèle de se fixer sur des positions spécifiques. Chaque variante aborde un aspect différent du surajustement mais partage l'idée centrale : l'aléatoire contrôlé pendant l'entraînement empêche la sur-spécialisation.

Dropout

Pourquoi c'est important

En profondeur

Le dropout dans les LLM

Variantes

Concepts connexes