Zubnet AIApprendreWiki › Curriculum Apprendreing
Training

Curriculum Apprendreing

Une stratégie d'entraînement qui présente les exemples dans un ordre significatif — typiquement du facile au difficile — plutôt qu'aléatoirement. Comme enseigner l'arithmétique à un étudiant avant le calcul, le curriculum learning donne au modèle les patterns fondamentaux d'abord et construit la complexité graduellement. Ça peut mener à une convergence plus rapide et parfois une meilleure performance finale.

Pourquoi c'est important

Le curriculum learning est une technique sous-appréciée qui peut améliorer l'efficacité d'entraînement sans changer le modèle ou les données. Le pré-entraînement LLM utilise de plus en plus le data scheduling — montrer des données plus propres et de plus haute qualité dans les étapes finales d'entraînement — qui est une forme de curriculum learning. L'ordre dans lequel tu présentes les données compte, pas juste les données elles-mêmes.

Deep Dive

The intuition: random training order means the model encounters hard examples before it has the foundation to learn from them, wasting gradient updates. By starting with easy, clear examples, the model builds basic representations that make harder examples learnable. Bengio et al. (2009) formalized this, showing that curriculum training converges faster and sometimes reaches better solutions than random ordering.

In LLM Pre-training

Modern LLM training uses a form of curriculum learning through data mixing schedules. Early training might use a broad mix of web text. Later stages increase the proportion of high-quality data (curated text, code, math, reasoning). Some training recipes "anneal" on premium data in the final phase — the model learns broad patterns first, then refines on carefully selected examples. This data scheduling is one of the most closely guarded secrets of frontier labs.

Self-Paced Apprendreing

Self-paced learning is a variant where the model itself decides what's easy or hard, based on its current loss on each example. Examples with low loss (already learned) are deprioritized, while examples with moderate loss (challenging but learnable) are emphasized. Examples with very high loss (noise, mislabeled data) are also deprioritized as potential outliers. This adaptive curriculum adjusts automatically as the model improves.

Concepts liés

← Tous les termes
← Cross-Attention Cursor →