Planning du taux d'apprentissage : Définition et signification — Wiki IA

Une stratégie pour changer le taux d'apprentissage pendant l'entraînement plutôt que de le garder constant. La plupart des entraînements modernes utilisent un warmup (augmenter graduellement de quasi-zéro au pic) suivi d'une décroissance (diminuer graduellement vers zéro). Le cosine annealing est le planning de décroissance le plus courant. Le taux d'apprentissage contrôle la taille de chaque étape de mise à jour du gradient — c'est sans doute l'hyperparamètre le plus important de l'entraînement.

Pourquoi c'est important

Trouver le bon planning de taux d'apprentissage peut faire ou défaire un entraînement. Trop haut et le modèle diverge (pics de perte, entraînement échoué). Trop bas et il s'entraîne trop lentement ou se bloque. Le planning interagit avec la taille du lot, la taille du modèle et les données — il n'y a pas de réglage universel. Comprendre les plannings de taux d'apprentissage t'aide à interpréter les courbes d'entraînement et à diagnostiquer les problèmes d'entraînement.

En profondeur

Le planning d'entraînement standard pour un LLM a trois phases : (1) warmup : augmenter linéairement le taux d'apprentissage de ~0 à la valeur pic sur les premiers 0.1–2% des étapes d'entraînement. Cela empêche le modèle initialisé aléatoirement de faire des pas trop grands au début. (2) Stable/pic : maintenir le taux d'apprentissage pic pour le gros de l'entraînement. (3) Décroissance : diminuer le taux d'apprentissage suivant une courbe cosinus jusqu'à quasi-zéro à la fin. Cela permet au modèle de faire des ajustements à grain fin dans la phase finale.

Cosine annealing

Décroissance cosinus : lr(t) = lr_min + 0.5 · (lr_max − lr_min) · (1 + cos(π · t / T)), où t est l'étape actuelle et T le nombre total d'étapes. Cela produit une courbe lisse qui diminue lentement au début, puis plus vite, puis lentement à nouveau en approchant le minimum. Pourquoi cosinus ? Ça fonctionne bien empiriquement et évite les transitions abruptes des plannings par paliers. Le taux d'apprentissage final est typiquement 10x plus petit que le pic.

La relation taux d'apprentissage-taille du lot

La règle de mise à l'échelle linéaire : si tu doubles la taille du lot, double le taux d'apprentissage. Cela préserve la taille de pas effective quand l'estimation du gradient devient plus précise (grâce au plus grand lot). La règle tient approximativement pour des tailles de lot modérées mais s'effondre pour des lots très grands, où le taux d'apprentissage optimal croît plus lentement que linéairement. Trouver cette relation juste est critique pour l'entraînement distribué où la taille du lot augmente avec le nombre de GPU.

Planning du taux d'apprentissage

Pourquoi c'est important

En profondeur

Cosine annealing

La relation taux d'apprentissage-taille du lot

Concepts connexes