En pratique, la descente de gradient stochastique traite les données d'entraînement en mini-lots aléatoires. Chaque lot donne une estimation du vrai gradient — des lots plus grands donnent de meilleures estimations (moins de bruit) mais coûtent plus de mémoire et de calcul par étape. Les tailles de lot typiques vont de 32 (petits modèles, un seul GPU) à des millions de tokens (pré-entraînement de LLM sur des milliers de GPU).
Le pré-entraînement des LLM utilise d'énormes tailles de lots effectives (des millions de tokens par mise à jour) distribuées sur de nombreux GPU. À cette échelle, le taux d'apprentissage doit être soigneusement ajusté — la règle de mise à l'échelle linéaire (doubler la taille de lot, doubler le taux d'apprentissage) fonctionne jusqu'à un certain point, puis s'effondre. L'accumulation de gradients te permet de simuler de gros lots sur du matériel plus petit en accumulant les gradients sur plusieurs passes avant de mettre à jour.
Le pré-entraînement des LLM modernes tourne typiquement pendant moins d'une époque sur le jeu de données complet — les données sont si volumineuses que le modèle ne les voit jamais toutes. C'est un changement par rapport au ML classique où 10–100 époques était normal. La recherche suggère que répéter les données (plusieurs époques) peut en fait nuire à la performance des LLM à cause d'effets de mémorisation, bien que cela dépende de la qualité des données. L'ajustement fin, en revanche, tourne typiquement pendant 1–5 époques sur un jeu de données beaucoup plus petit.