A intuição: dropout treina um conjunto de sub-redes. Cada passo de treinamento usa um subconjunto aleatório diferente de neurônios, efetivamente treinando uma arquitetura diferente a cada vez. Na inferência, usar todos os neurônios aproxima a média das predições de todas essas sub-redes. Esse efeito de ensemble é o que proporciona robustez — nenhum neurônio individual pode se tornar um ponto único de falha.
Curiosamente, muitos LLMs modernos usam pouco ou nenhum dropout durante o pré-treinamento. Na escala de bilhões de parâmetros treinados em trilhões de tokens, overfitting é menos preocupante porque o modelo nunca vê os mesmos dados duas vezes (ou raramente). Os dados de treinamento são tão vastos em relação à capacidade do modelo que ele está efetivamente sempre no regime de underfitting. Weight decay (regularização L2) é mais comumente usado nessa escala.
DropPath (profundidade estocástica) descarta camadas inteiras em vez de neurônios individuais — usado em Vision Transformers. DropConnect descarta pesos individuais em vez de neurônios. Attention dropout descarta pesos de attention para evitar que o modelo fixe em posições específicas. Cada variante aborda um aspecto diferente do overfitting mas compartilha a ideia central: aleatoriedade controlada durante o treinamento previne superespecialização.