直觉:dropout训练了一个子网络集成。每个训练步骤使用不同的随机神经元子集,实际上每次都在训练一个不同的架构。在推理时,使用所有神经元近似于对所有这些子网络的预测进行平均。这种集成效应提供了鲁棒性——没有单个神经元可以成为单点故障。
有趣的是,许多现代LLM在预训练期间很少或不使用dropout。在数十亿参数、数万亿token的规模下,过拟合不太令人担忧,因为模型永远不会(或很少)看到相同的数据两次。训练数据相对于模型容量如此庞大,以至于模型实际上始终处于欠拟合状态。在这种规模下,权重衰减(L2正则化)更常用。
DropPath(随机深度)丢弃整个层而非单个神经元——用于视觉Transformer。DropConnect丢弃单个权重而非神经元。注意力dropout丢弃注意力权重以防止模型固定在特定位置上。每种变体针对过拟合的不同方面,但共享核心思想:训练期间的受控随机性防止过度专化。