El programa estándar de entrenamiento de LLMs tiene tres fases: (1) warmup: aumentar linealmente la tasa de aprendizaje desde ~0 hasta el valor pico durante el primer 0.1–2% de los pasos de entrenamiento. Esto evita que el modelo inicializado aleatoriamente dé pasos demasiado grandes al principio. (2) Estable/pico: mantener la tasa de aprendizaje pico durante la mayor parte del entrenamiento. (3) Decay: disminuir la tasa de aprendizaje siguiendo una curva coseno hasta casi cero al final. Esto permite que el modelo haga ajustes finos en la fase final.
Decay coseno: lr(t) = lr_min + 0.5 · (lr_max − lr_min) · (1 + cos(π · t / T)), donde t es el paso actual y T los pasos totales. Esto produce una curva suave que disminuye lentamente al principio, luego más rápido, y luego lentamente de nuevo al acercarse al mínimo. ¿Por qué coseno? Funciona bien empíricamente y evita las transiciones abruptas de los programas basados en escalones. La tasa de aprendizaje final es típicamente 10x menor que el pico.
La regla de escalado lineal: si duplicas el tamaño de lote, duplica la tasa de aprendizaje. Esto preserva el tamaño efectivo del paso cuando la estimación del gradiente se vuelve más precisa (por el lote más grande). La regla se mantiene aproximadamente para tamaños de lote moderados pero se rompe con lotes muy grandes, donde la tasa de aprendizaje óptima crece más lento que linealmente. Acertar esta relación es crítico para el entrenamiento distribuido donde el tamaño de lote escala con el número de GPUs.