Dropout：定義與含義 — AI 維基

一種正則化技術，在每個訓練步驟中隨機「關閉」一部分神經元，將其輸出設為零。這防止網路過度依賴任何單一神經元，迫使其學習分散的、穩健的表示。在推理時，所有神經元都是活躍的，但會進行相應的縮放。

為什麼重要

Dropout 是對抗過擬合最簡單且最廣泛使用的防禦手段。沒有正則化，大型神經網路會記住訓練資料而不是學習可泛化的模式。Dropout（及其近親權重衰減）是模型能夠遠大於其訓練集卻不會只是記住一切的原因。

深度解析

直覺上：dropout 訓練的是子網路的集成。每個訓練步驟使用不同的隨機神經元子集，實際上每次訓練的都是不同的架構。在推理時，使用所有神經元近似於對所有這些子網路的預測取平均。這種集成效應提供了穩健性——沒有任何單一神經元可以成為單點故障。

LLM 中的 Dropout

有趣的是，許多現代 LLM 在預訓練期間幾乎不使用或完全不使用 dropout。在數十億參數對數兆 token 進行訓練的規模下，過擬合不太是問題，因為模型從不（或很少）看到相同的資料兩次。訓練資料相對於模型容量是如此龐大，以至於模型實際上一直處於欠擬合狀態。在這種規模下，更常使用的是權重衰減（L2 正則化）。

變體

DropPath（隨機深度）丟棄整層而非單個神經元——用於 Vision Transformer。DropConnect 丟棄單個權重而非神經元。注意力 dropout 丟棄注意力權重以防止模型固著於特定位置。每種變體都針對過擬合的不同面向，但共享核心理念：訓練期間的受控隨機性防止過度特化。

Dropout

為什麼重要

深度解析

LLM 中的 Dropout

變體

相關概念