Zubnet AIAprenderWiki › Dropout
Treinamento

Dropout

Também conhecido como: Regularização, Weight Decay
Uma técnica de regularização que aleatoriamente "desliga" uma fração dos neurônios durante cada passo de treinamento, definindo suas saídas como zero. Isso impede que a rede dependa demais de qualquer neurônio individual, forçando-a a aprender representações distribuídas e robustas. Na inferência, todos os neurônios ficam ativos mas são escalados adequadamente.

Por que isso importa

Dropout é a defesa mais simples e amplamente usada contra overfitting. Sem regularização, redes neurais grandes memorizam dados de treinamento em vez de aprender padrões generalizáveis. Dropout (e seu primo weight decay) são o motivo pelo qual modelos podem ser muito maiores que seus conjuntos de treinamento sem simplesmente memorizar tudo.

Em profundidade

A intuição: dropout treina um conjunto de sub-redes. Cada passo de treinamento usa um subconjunto aleatório diferente de neurônios, efetivamente treinando uma arquitetura diferente a cada vez. Na inferência, usar todos os neurônios aproxima a média das predições de todas essas sub-redes. Esse efeito de ensemble é o que proporciona robustez — nenhum neurônio individual pode se tornar um ponto único de falha.

Dropout em LLMs

Curiosamente, muitos LLMs modernos usam pouco ou nenhum dropout durante o pré-treinamento. Na escala de bilhões de parâmetros treinados em trilhões de tokens, overfitting é menos preocupante porque o modelo nunca vê os mesmos dados duas vezes (ou raramente). Os dados de treinamento são tão vastos em relação à capacidade do modelo que ele está efetivamente sempre no regime de underfitting. Weight decay (regularização L2) é mais comumente usado nessa escala.

Variantes

DropPath (profundidade estocástica) descarta camadas inteiras em vez de neurônios individuais — usado em Vision Transformers. DropConnect descarta pesos individuais em vez de neurônios. Attention dropout descarta pesos de attention para evitar que o modelo fixe em posições específicas. Cada variante aborda um aspecto diferente do overfitting mas compartilha a ideia central: aleatoriedade controlada durante o treinamento previne superespecialização.

Conceitos relacionados

← Todos os termos
← DPO Edge AI →