Zubnet AIApprendreWiki › Planning du taux d'apprentissage
Entraînement

Planning du taux d'apprentissage

Aussi appelé : LR Schedule, warmup, cosine annealing
Une stratégie pour changer le taux d'apprentissage pendant l'entraînement plutôt que de le garder constant. La plupart des entraînements modernes utilisent un warmup (augmenter graduellement de quasi-zéro au pic) suivi d'une décroissance (diminuer graduellement vers zéro). Le cosine annealing est le planning de décroissance le plus courant. Le taux d'apprentissage contrôle la taille de chaque étape de mise à jour du gradient — c'est sans doute l'hyperparamètre le plus important de l'entraînement.

Pourquoi c'est important

Trouver le bon planning de taux d'apprentissage peut faire ou défaire un entraînement. Trop haut et le modèle diverge (pics de perte, entraînement échoué). Trop bas et il s'entraîne trop lentement ou se bloque. Le planning interagit avec la taille du lot, la taille du modèle et les données — il n'y a pas de réglage universel. Comprendre les plannings de taux d'apprentissage t'aide à interpréter les courbes d'entraînement et à diagnostiquer les problèmes d'entraînement.

En profondeur

Le planning d'entraînement standard pour un LLM a trois phases : (1) warmup : augmenter linéairement le taux d'apprentissage de ~0 à la valeur pic sur les premiers 0.1–2% des étapes d'entraînement. Cela empêche le modèle initialisé aléatoirement de faire des pas trop grands au début. (2) Stable/pic : maintenir le taux d'apprentissage pic pour le gros de l'entraînement. (3) Décroissance : diminuer le taux d'apprentissage suivant une courbe cosinus jusqu'à quasi-zéro à la fin. Cela permet au modèle de faire des ajustements à grain fin dans la phase finale.

Cosine annealing

Décroissance cosinus : lr(t) = lr_min + 0.5 · (lr_max − lr_min) · (1 + cos(π · t / T)), où t est l'étape actuelle et T le nombre total d'étapes. Cela produit une courbe lisse qui diminue lentement au début, puis plus vite, puis lentement à nouveau en approchant le minimum. Pourquoi cosinus ? Ça fonctionne bien empiriquement et évite les transitions abruptes des plannings par paliers. Le taux d'apprentissage final est typiquement 10x plus petit que le pic.

La relation taux d'apprentissage-taille du lot

La règle de mise à l'échelle linéaire : si tu doubles la taille du lot, double le taux d'apprentissage. Cela préserve la taille de pas effective quand l'estimation du gradient devient plus précise (grâce au plus grand lot). La règle tient approximativement pour des tailles de lot modérées mais s'effondre pour des lots très grands, où le taux d'apprentissage optimal croît plus lentement que linéairement. Trouver cette relation juste est critique pour l'entraînement distribué où la taille du lot augmente avec le nombre de GPU.

Concepts connexes

← Tous les termes
← PixVerse Plongement de mots →