Zubnet AIApprendreWiki › Dropout
Training

Dropout

Regularization, Weight Decay
Une technique de régularisation qui « éteint » aléatoirement une fraction des neurones pendant chaque étape d'entraînement en mettant leurs sorties à zéro. Ça empêche le réseau de s'appuyer trop sur un seul neurone, le forçant à apprendre des représentations distribuées et robustes. À l'inférence, tous les neurones sont actifs mais scalés en conséquence.

Pourquoi c'est important

Le dropout est la défense la plus simple et la plus utilisée contre l'overfitting. Sans régularisation, les gros réseaux de neurones mémorisent les données d'entraînement au lieu d'apprendre des patterns généralisables. Le dropout (et son cousin le weight decay) sont pourquoi les modèles peuvent être beaucoup plus gros que leurs sets d'entraînement sans juste tout mémoriser.

Deep Dive

The intuition: dropout trains an ensemble of sub-networks. Each training step uses a different random subset of neurons, effectively training a different architecture each time. At inference, using all neurons approximates averaging the predictions of all these sub-networks. This ensemble effect is what provides robustness — no single neuron can become a single point of failure.

Dropout in LLMs

Interestingly, many modern LLMs use little or no dropout during pre-training. At the scale of billions of parameters trained on trillions of tokens, overfitting is less of a concern because the model never sees the same data twice (or rarely). The training data is so vast relative to model capacity that the model is effectively always in the underfitting regime. Weight decay (L2 regularization) is more commonly used at this scale.

Variants

DropPath (stochastic depth) drops entire layers instead of individual neurons — used in Vision Transformers. DropConnect drops individual weights instead of neurons. Attention dropout drops attention weights to prevent the model from fixating on specific positions. Each variant addresses a different aspect of overfitting but shares the core idea: controlled randomness during training prevents over-specialization.

Concepts liés

← Tous les termes
← DPO Dual Use →