Zubnet AI學習Wiki › Dropout
訓練

Dropout

別名:正則化、權重衰減
一種正則化技術,在每個訓練步驟中隨機「關閉」一部分神經元,將其輸出設為零。這防止網路過度依賴任何單一神經元,迫使其學習分散的、穩健的表示。在推理時,所有神經元都是活躍的,但會進行相應的縮放。

為什麼重要

Dropout 是對抗過擬合最簡單且最廣泛使用的防禦手段。沒有正則化,大型神經網路會記住訓練資料而不是學習可泛化的模式。Dropout(及其近親權重衰減)是模型能夠遠大於其訓練集卻不會只是記住一切的原因。

深度解析

直覺上:dropout 訓練的是子網路的集成。每個訓練步驟使用不同的隨機神經元子集,實際上每次訓練的都是不同的架構。在推理時,使用所有神經元近似於對所有這些子網路的預測取平均。這種集成效應提供了穩健性——沒有任何單一神經元可以成為單點故障。

LLM 中的 Dropout

有趣的是,許多現代 LLM 在預訓練期間幾乎不使用或完全不使用 dropout。在數十億參數對數兆 token 進行訓練的規模下,過擬合不太是問題,因為模型從不(或很少)看到相同的資料兩次。訓練資料相對於模型容量是如此龐大,以至於模型實際上一直處於欠擬合狀態。在這種規模下,更常使用的是權重衰減(L2 正則化)。

變體

DropPath(隨機深度)丟棄整層而非單個神經元——用於 Vision Transformer。DropConnect 丟棄單個權重而非神經元。注意力 dropout 丟棄注意力權重以防止模型固著於特定位置。每種變體都針對過擬合的不同面向,但共享核心理念:訓練期間的受控隨機性防止過度特化。

相關概念

← 所有術語
← DPO Edge AI(邊緣 AI) →
ESC