Zubnet AIAprenderWiki › Dropout
Entrenamiento

Dropout

Regularización, Weight Decay
Una técnica de regularización que "apaga" aleatoriamente una fracción de neuronas durante cada paso de entrenamiento poniendo sus salidas en cero. Esto evita que la red dependa demasiado de cualquier neurona individual, forzándola a aprender representaciones distribuidas y robustas. En el momento de inferencia, todas las neuronas están activas pero escaladas proporcionalmente.

Por qué importa

Dropout es la defensa más simple y ampliamente usada contra el sobreajuste. Sin regularización, las redes neuronales grandes memorizan los datos de entrenamiento en lugar de aprender patrones generalizables. Dropout (y su primo weight decay) son la razón por la que los modelos pueden ser mucho más grandes que sus conjuntos de entrenamiento sin simplemente memorizar todo.

En profundidad

La intuición: dropout entrena un ensamble de sub-redes. Cada paso de entrenamiento usa un subconjunto aleatorio diferente de neuronas, efectivamente entrenando una arquitectura diferente cada vez. En la inferencia, usar todas las neuronas aproxima el promedio de las predicciones de todas estas sub-redes. Este efecto de ensamble es lo que proporciona robustez — ninguna neurona individual puede convertirse en un punto único de falla.

Dropout en LLMs

Curiosamente, muchos LLMs modernos usan poco o ningún dropout durante el pre-entrenamiento. A la escala de miles de millones de parámetros entrenados con billones de tokens, el sobreajuste es menos preocupante porque el modelo nunca ve los mismos datos dos veces (o rara vez). Los datos de entrenamiento son tan vastos en relación con la capacidad del modelo que este está efectivamente siempre en régimen de sub-ajuste. Weight decay (regularización L2) se usa más comúnmente a esta escala.

Variantes

DropPath (stochastic depth) descarta capas enteras en lugar de neuronas individuales — usado en Vision Transformers. DropConnect descarta pesos individuales en lugar de neuronas. Attention dropout descarta pesos de atención para evitar que el modelo se fije en posiciones específicas. Cada variante aborda un aspecto diferente del sobreajuste pero comparte la idea central: aleatoriedad controlada durante el entrenamiento previene la sobre-especialización.

Conceptos relacionados

← Todos los términos
← DPO Edición de conocimiento →
ESC