训练

Dropout

别名：正则化、权重衰减

一种正则化技术，在每个训练步骤中随机“关闭”一部分神经元，将其输出设为零。这防止网络过度依赖任何单个神经元，迫使其学习分布式的、鲁棒的表示。在推理时，所有神经元都被激活，但会相应地进行缩放。

为什么重要

Dropout是对抗过拟合的最简单且最广泛使用的防御手段。没有正则化，大型神经网络会记忆训练数据而不是学习可泛化的模式。Dropout（及其近亲权重衰减）是模型可以远大于训练集却不会只是记忆所有内容的原因。

深度解析

直觉：dropout训练了一个子网络集成。每个训练步骤使用不同的随机神经元子集，实际上每次都在训练一个不同的架构。在推理时，使用所有神经元近似于对所有这些子网络的预测进行平均。这种集成效应提供了鲁棒性——没有单个神经元可以成为单点故障。

LLM中的Dropout

有趣的是，许多现代LLM在预训练期间很少或不使用dropout。在数十亿参数、数万亿token的规模下，过拟合不太令人担忧，因为模型永远不会（或很少）看到相同的数据两次。训练数据相对于模型容量如此庞大，以至于模型实际上始终处于欠拟合状态。在这种规模下，权重衰减（L2正则化）更常用。

变体

DropPath（随机深度）丢弃整个层而非单个神经元——用于视觉Transformer。DropConnect丢弃单个权重而非神经元。注意力dropout丢弃注意力权重以防止模型固定在特定位置上。每种变体针对过拟合的不同方面，但共享核心思想：训练期间的受控随机性防止过度专化。

相关概念

← 所有术语

← DPO ElevenLabs →