El bucle completo: batch → forward pass → calcular pérdida → backpropagation → actualizar pesos. Cada iteración mueve los parámetros un pequeño paso en la dirección que reduce la pérdida. El tamaño del paso es la tasa de aprendizaje — demasiado grande y el entrenamiento diverge, demasiado pequeño y tarda una eternidad.
El optimizador Adam mantiene tasas de aprendizaje adaptativas por parámetro, ajustándose según la historia del gradiente de cada peso. Es el estándar de facto para entrenar LLMs porque es robusto y converge más rápido que SGD puro. Variantes como AdamW (con weight decay desacoplado) son lo que usan la mayoría de los runs de entrenamiento modernos.
El entrenamiento moderno usa un schedule: warmup (subida gradual) → pico → decaimiento coseno. El warmup previene actualizaciones inestables al inicio cuando los gradientes son ruidosos. El decaimiento coseno reduce gradualmente la tasa de aprendizaje para un afinamiento más fino al final del entrenamiento. Estos schedules no son opcionales — entrenar un LLM sin ellos típicamente falla.