Descenso de gradiente: Definición y significado — Wiki de IA

Ajusta iterativamente los parámetros para reducir la pérdida computando gradientes y dando pasos cuesta abajo. La retropropagación calcula eficientemente los gradientes a través de las capas.

Por qué importa

Cada modelo fue entrenado con descenso de gradiente. Explica la importancia de la tasa de aprendizaje, la divergencia del entrenamiento y por qué Adam funciona.

En profundidad

El bucle completo: batch → forward pass → calcular pérdida → backpropagation → actualizar pesos. Cada iteración mueve los parámetros un pequeño paso en la dirección que reduce la pérdida. El tamaño del paso es la tasa de aprendizaje — demasiado grande y el entrenamiento diverge, demasiado pequeño y tarda una eternidad.

Adam y los optimizadores modernos

El optimizador Adam mantiene tasas de aprendizaje adaptativas por parámetro, ajustándose según la historia del gradiente de cada peso. Es el estándar de facto para entrenar LLMs porque es robusto y converge más rápido que SGD puro. Variantes como AdamW (con weight decay desacoplado) son lo que usan la mayoría de los runs de entrenamiento modernos.

Schedules de tasa de aprendizaje

El entrenamiento moderno usa un schedule: warmup (subida gradual) → pico → decaimiento coseno. El warmup previene actualizaciones inestables al inicio cuando los gradientes son ruidosos. El decaimiento coseno reduce gradualmente la tasa de aprendizaje para un afinamiento más fino al final del entrenamiento. Estos schedules no son opcionales — entrenar un LLM sin ellos típicamente falla.

Descenso de gradiente

Por qué importa

En profundidad

Adam y los optimizadores modernos

Schedules de tasa de aprendizaje

Conceptos relacionados