L'intuition : le dropout entraîne un ensemble de sous-réseaux. Chaque étape d'entraînement utilise un sous-ensemble aléatoire différent de neurones, entraînant effectivement une architecture différente à chaque fois. À l'inférence, utiliser tous les neurones approxime la moyenne des prédictions de tous ces sous-réseaux. Cet effet d'ensemble est ce qui fournit la robustesse — aucun neurone individuel ne peut devenir un point de défaillance unique.
Fait intéressant, beaucoup de LLM modernes utilisent peu ou pas de dropout pendant le pré-entraînement. À l'échelle de milliards de paramètres entraînés sur des trillions de tokens, le surajustement est moins une préoccupation parce que le modèle ne voit jamais les mêmes données deux fois (ou rarement). Les données d'entraînement sont si vastes par rapport à la capacité du modèle que celui-ci est effectivement toujours en régime de sous-ajustement. La décroissance des poids (régularisation L2) est plus couramment utilisée à cette échelle.
DropPath (profondeur stochastique) supprime des couches entières au lieu de neurones individuels — utilisé dans les Vision Transformers. DropConnect supprime des poids individuels au lieu de neurones. L'attention dropout supprime des poids d'attention pour empêcher le modèle de se fixer sur des positions spécifiques. Chaque variante aborde un aspect différent du surajustement mais partage l'idée centrale : l'aléatoire contrôlé pendant l'entraînement empêche la sur-spécialisation.