直覺上:dropout 訓練的是子網路的集成。每個訓練步驟使用不同的隨機神經元子集,實際上每次訓練的都是不同的架構。在推理時,使用所有神經元近似於對所有這些子網路的預測取平均。這種集成效應提供了穩健性——沒有任何單一神經元可以成為單點故障。
有趣的是,許多現代 LLM 在預訓練期間幾乎不使用或完全不使用 dropout。在數十億參數對數兆 token 進行訓練的規模下,過擬合不太是問題,因為模型從不(或很少)看到相同的資料兩次。訓練資料相對於模型容量是如此龐大,以至於模型實際上一直處於欠擬合狀態。在這種規模下,更常使用的是權重衰減(L2 正則化)。
DropPath(隨機深度)丟棄整層而非單個神經元——用於 Vision Transformer。DropConnect 丟棄單個權重而非神經元。注意力 dropout 丟棄注意力權重以防止模型固著於特定位置。每種變體都針對過擬合的不同面向,但共享核心理念:訓練期間的受控隨機性防止過度特化。