Taille de lot et époque : Définition et signification — Wiki IA

La taille de lot est le nombre d'exemples d'entraînement que le modèle traite avant de mettre à jour ses paramètres. Une époque est un passage complet à travers l'ensemble du jeu de données d'entraînement. Un modèle entraîné pendant 3 époques sur 1 million d'exemples avec une taille de lot de 1 000 traite 1 000 exemples par mise à jour, effectue 1 000 mises à jour par époque, et 3 000 mises à jour au total.

Pourquoi c'est important

La taille de lot et les époques sont les contrôles les plus fondamentaux de l'entraînement. La taille de lot affecte la vitesse d'entraînement, l'utilisation mémoire et même ce que le modèle apprend (les petits lots ajoutent du bruit qui peut aider la généralisation ; les gros lots convergent plus vite mais peuvent moins bien généraliser). Le nombre d'époques détermine combien de fois le modèle voit chaque exemple — trop peu et il sous-ajuste, trop et il surajuste.

En profondeur

En pratique, la descente de gradient stochastique traite les données d'entraînement en mini-lots aléatoires. Chaque lot donne une estimation du vrai gradient — des lots plus grands donnent de meilleures estimations (moins de bruit) mais coûtent plus de mémoire et de calcul par étape. Les tailles de lot typiques vont de 32 (petits modèles, un seul GPU) à des millions de tokens (pré-entraînement de LLM sur des milliers de GPU).

Le défi de l'entraînement à gros lots

Le pré-entraînement des LLM utilise d'énormes tailles de lots effectives (des millions de tokens par mise à jour) distribuées sur de nombreux GPU. À cette échelle, le taux d'apprentissage doit être soigneusement ajusté — la règle de mise à l'échelle linéaire (doubler la taille de lot, doubler le taux d'apprentissage) fonctionne jusqu'à un certain point, puis s'effondre. L'accumulation de gradients te permet de simuler de gros lots sur du matériel plus petit en accumulant les gradients sur plusieurs passes avant de mettre à jour.

Les époques à l'ère des LLM

Le pré-entraînement des LLM modernes tourne typiquement pendant moins d'une époque sur le jeu de données complet — les données sont si volumineuses que le modèle ne les voit jamais toutes. C'est un changement par rapport au ML classique où 10–100 époques était normal. La recherche suggère que répéter les données (plusieurs époques) peut en fait nuire à la performance des LLM à cause d'effets de mémorisation, bien que cela dépende de la qualité des données. L'ajustement fin, en revanche, tourne typiquement pendant 1–5 époques sur un jeu de données beaucoup plus petit.

Taille de lot et époque

Pourquoi c'est important

En profondeur

Le défi de l'entraînement à gros lots

Les époques à l'ère des LLM

Concepts connexes