La intuición: dropout entrena un ensamble de sub-redes. Cada paso de entrenamiento usa un subconjunto aleatorio diferente de neuronas, efectivamente entrenando una arquitectura diferente cada vez. En la inferencia, usar todas las neuronas aproxima el promedio de las predicciones de todas estas sub-redes. Este efecto de ensamble es lo que proporciona robustez — ninguna neurona individual puede convertirse en un punto único de falla.
Curiosamente, muchos LLMs modernos usan poco o ningún dropout durante el pre-entrenamiento. A la escala de miles de millones de parámetros entrenados con billones de tokens, el sobreajuste es menos preocupante porque el modelo nunca ve los mismos datos dos veces (o rara vez). Los datos de entrenamiento son tan vastos en relación con la capacidad del modelo que este está efectivamente siempre en régimen de sub-ajuste. Weight decay (regularización L2) se usa más comúnmente a esta escala.
DropPath (stochastic depth) descarta capas enteras en lugar de neuronas individuales — usado en Vision Transformers. DropConnect descarta pesos individuales en lugar de neuronas. Attention dropout descarta pesos de atención para evitar que el modelo se fije en posiciones específicas. Cada variante aborda un aspecto diferente del sobreajuste pero comparte la idea central: aleatoriedad controlada durante el entrenamiento previene la sobre-especialización.