Zubnet AI学习Wiki › Dropout
训练

Dropout

别名:正则化、权重衰减
一种正则化技术,在每个训练步骤中随机“关闭”一部分神经元,将其输出设为零。这防止网络过度依赖任何单个神经元,迫使其学习分布式的、鲁棒的表示。在推理时,所有神经元都被激活,但会相应地进行缩放。

为什么重要

Dropout是对抗过拟合的最简单且最广泛使用的防御手段。没有正则化,大型神经网络会记忆训练数据而不是学习可泛化的模式。Dropout(及其近亲权重衰减)是模型可以远大于训练集却不会只是记忆所有内容的原因。

深度解析

直觉:dropout训练了一个子网络集成。每个训练步骤使用不同的随机神经元子集,实际上每次都在训练一个不同的架构。在推理时,使用所有神经元近似于对所有这些子网络的预测进行平均。这种集成效应提供了鲁棒性——没有单个神经元可以成为单点故障。

LLM中的Dropout

有趣的是,许多现代LLM在预训练期间很少或不使用dropout。在数十亿参数、数万亿token的规模下,过拟合不太令人担忧,因为模型永远不会(或很少)看到相同的数据两次。训练数据相对于模型容量如此庞大,以至于模型实际上始终处于欠拟合状态。在这种规模下,权重衰减(L2正则化)更常用。

变体

DropPath(随机深度)丢弃整个层而非单个神经元——用于视觉Transformer。DropConnect丢弃单个权重而非神经元。注意力dropout丢弃注意力权重以防止模型固定在特定位置上。每种变体针对过拟合的不同方面,但共享核心思想:训练期间的受控随机性防止过度专化。

相关概念

← 所有术语
← DPO ElevenLabs →