Zubnet AIApprendreWiki › Apprentissage par curriculum
Entraînement

Apprentissage par curriculum

Une stratégie d'entraînement qui présente les exemples dans un ordre significatif — typiquement du facile au difficile — plutôt qu'aléatoirement. Comme enseigner l'arithmétique avant le calcul intégral à un élève, l'apprentissage par curriculum donne d'abord les patterns fondamentaux au modèle et augmente la complexité graduellement. Ça peut mener à une convergence plus rapide et parfois à de meilleures performances finales.

Pourquoi c'est important

L'apprentissage par curriculum est une technique sous-estimée qui peut améliorer l'efficacité d'entraînement sans changer le modèle ou les données. Le pré-entraînement des LLM utilise de plus en plus le scheduling de données — montrer des données plus propres et de meilleure qualité dans les dernières étapes d'entraînement — ce qui est une forme d'apprentissage par curriculum. L'ordre dans lequel tu présentes les données compte, pas seulement les données elles-mêmes.

En profondeur

L'intuition : un ordre d'entraînement aléatoire signifie que le modèle rencontre des exemples difficiles avant d'avoir les fondations pour en tirer quelque chose, gaspillant des mises à jour de gradient. En commençant par des exemples faciles et clairs, le modèle construit des représentations de base qui rendent les exemples plus difficiles apprenables. Bengio et al. (2009) ont formalisé ça, montrant que l'entraînement par curriculum converge plus vite et atteint parfois de meilleures solutions que l'ordre aléatoire.

Dans le pré-entraînement des LLM

L'entraînement moderne de LLM utilise une forme d'apprentissage par curriculum via les calendriers de mélange de données. Le début de l'entraînement peut utiliser un mélange large de texte web. Les étapes ultérieures augmentent la proportion de données de haute qualité (texte curé, code, mathématiques, raisonnement). Certaines recettes d'entraînement font un « recuit » sur des données premium dans la phase finale — le modèle apprend d'abord les patterns larges, puis affine sur des exemples soigneusement sélectionnés. Ce scheduling de données est l'un des secrets les mieux gardés des laboratoires de frontière.

Apprentissage auto-régulé

L'apprentissage auto-régulé est une variante où le modèle lui-même décide ce qui est facile ou difficile, en se basant sur sa perte actuelle sur chaque exemple. Les exemples à faible perte (déjà appris) sont dé-priorisés, tandis que les exemples à perte modérée (difficiles mais apprenables) sont mis en avant. Les exemples à très haute perte (bruit, données mal étiquetées) sont aussi dé-priorisés comme potentielles anomalies. Ce curriculum adaptatif s'ajuste automatiquement à mesure que le modèle progresse.

Concepts connexes

← Tous les termes
← Apprentissage non supervisé Apprentissage par renforcement →