Programa de tasa de aprendizaje: Definición y significado — Wiki de IA

Una estrategia para cambiar la tasa de aprendizaje durante el entrenamiento en lugar de mantenerla constante. La mayoría del entrenamiento moderno usa warmup (aumentar gradualmente desde cerca de cero hasta el pico) seguido de decay (disminuir gradualmente hacia cero). Cosine annealing es el programa de decay más común. La tasa de aprendizaje controla qué tan grande es cada paso de actualización por gradiente — posiblemente el hiperparámetro más importante del entrenamiento.

Por qué importa

Acertar con el programa de tasa de aprendizaje puede hacer o deshacer un entrenamiento. Demasiado alta y el modelo diverge (picos en la pérdida, falla el entrenamiento). Demasiado baja y entrena demasiado lento o se atasca. El programa interactúa con el tamaño de lote, el tamaño del modelo y los datos — no hay una configuración universal. Entender los programas de tasa de aprendizaje te ayuda a interpretar curvas de entrenamiento y diagnosticar problemas.

En profundidad

El programa estándar de entrenamiento de LLMs tiene tres fases: (1) warmup: aumentar linealmente la tasa de aprendizaje desde ~0 hasta el valor pico durante el primer 0.1–2% de los pasos de entrenamiento. Esto evita que el modelo inicializado aleatoriamente dé pasos demasiado grandes al principio. (2) Estable/pico: mantener la tasa de aprendizaje pico durante la mayor parte del entrenamiento. (3) Decay: disminuir la tasa de aprendizaje siguiendo una curva coseno hasta casi cero al final. Esto permite que el modelo haga ajustes finos en la fase final.

Cosine Annealing

Decay coseno: lr(t) = lr_min + 0.5 · (lr_max − lr_min) · (1 + cos(π · t / T)), donde t es el paso actual y T los pasos totales. Esto produce una curva suave que disminuye lentamente al principio, luego más rápido, y luego lentamente de nuevo al acercarse al mínimo. ¿Por qué coseno? Funciona bien empíricamente y evita las transiciones abruptas de los programas basados en escalones. La tasa de aprendizaje final es típicamente 10x menor que el pico.

La relación tasa de aprendizaje-tamaño de lote

La regla de escalado lineal: si duplicas el tamaño de lote, duplica la tasa de aprendizaje. Esto preserva el tamaño efectivo del paso cuando la estimación del gradiente se vuelve más precisa (por el lote más grande). La regla se mantiene aproximadamente para tamaños de lote moderados pero se rompe con lotes muy grandes, donde la tasa de aprendizaje óptima crece más lento que linealmente. Acertar esta relación es crítico para el entrenamiento distribuido donde el tamaño de lote escala con el número de GPUs.

Programa de tasa de aprendizaje

Por qué importa

En profundidad

Cosine Annealing

La relación tasa de aprendizaje-tamaño de lote

Conceptos relacionados