L'intuition : un ordre d'entraînement aléatoire signifie que le modèle rencontre des exemples difficiles avant d'avoir les fondations pour en tirer quelque chose, gaspillant des mises à jour de gradient. En commençant par des exemples faciles et clairs, le modèle construit des représentations de base qui rendent les exemples plus difficiles apprenables. Bengio et al. (2009) ont formalisé ça, montrant que l'entraînement par curriculum converge plus vite et atteint parfois de meilleures solutions que l'ordre aléatoire.
L'entraînement moderne de LLM utilise une forme d'apprentissage par curriculum via les calendriers de mélange de données. Le début de l'entraînement peut utiliser un mélange large de texte web. Les étapes ultérieures augmentent la proportion de données de haute qualité (texte curé, code, mathématiques, raisonnement). Certaines recettes d'entraînement font un « recuit » sur des données premium dans la phase finale — le modèle apprend d'abord les patterns larges, puis affine sur des exemples soigneusement sélectionnés. Ce scheduling de données est l'un des secrets les mieux gardés des laboratoires de frontière.
L'apprentissage auto-régulé est une variante où le modèle lui-même décide ce qui est facile ou difficile, en se basant sur sa perte actuelle sur chaque exemple. Les exemples à faible perte (déjà appris) sont dé-priorisés, tandis que les exemples à perte modérée (difficiles mais apprenables) sont mis en avant. Les exemples à très haute perte (bruit, données mal étiquetées) sont aussi dé-priorisés comme potentielles anomalies. Ce curriculum adaptatif s'ajuste automatiquement à mesure que le modèle progresse.