Zubnet AIAprenderWiki › Dropout
Training

Dropout

Regularization, Weight Decay
Uma técnica de regularização que aleatoriamente “desliga” uma fração dos neurônios durante cada passo de treinamento, colocando suas saídas em zero. Isso evita que a rede dependa demais de qualquer neurônio único, forçando-a a aprender representações distribuídas e robustas. Na inferência, todos os neurônios estão ativos mas escalados apropriadamente.

Por que importa

Dropout é a defesa mais simples e mais usada contra overfitting. Sem regularização, redes neurais grandes memorizam os dados de treinamento em vez de aprender padrões generalizáveis. Dropout (e seu primo weight decay) são por que modelos podem ser muito maiores que seus conjuntos de treinamento sem simplesmente memorizar tudo.

Deep Dive

The intuition: dropout trains an ensemble of sub-networks. Each training step uses a different random subset of neurons, effectively training a different architecture each time. At inference, using all neurons approximates averaging the predictions of all these sub-networks. This ensemble effect is what provides robustness — no single neuron can become a single point of failure.

Dropout in LLMs

Interestingly, many modern LLMs use little or no dropout during pre-training. At the scale of billions of parameters trained on trillions of tokens, overfitting is less of a concern because the model never sees the same data twice (or rarely). The training data is so vast relative to model capacity that the model is effectively always in the underfitting regime. Weight decay (L2 regularization) is more commonly used at this scale.

Variants

DropPath (stochastic depth) drops entire layers instead of individual neurons — used in Vision Transformers. DropConnect drops individual weights instead of neurons. Attention dropout drops attention weights to prevent the model from fixating on specific positions. Each variant addresses a different aspect of overfitting but shares the core idea: controlled randomness during training prevents over-specialization.

Conceitos relacionados

← Todos os termos
← DPO Dual Use →