Arrêt précoce : Définition et signification — Wiki IA

Arrêter l'entraînement quand la performance sur un ensemble de validation tenu à l'écart arrête de s'améliorer, plutôt que d'entraîner pour un nombre fixe d'étapes. Alors que l'entraînement continue, la perte d'entraînement continue de diminuer mais la perte de validation finit par augmenter — le modèle surajuste les données d'entraînement. L'arrêt précoce capture ce point d'inflexion et sauvegarde le meilleur modèle avant que la qualité ne se dégrade.

Pourquoi c'est important

L'arrêt précoce est la technique de régularisation la plus simple et la plus efficace pour le fine-tuning. Sans lui, tu risques d'entraîner trop longtemps et de détruire les capacités que tu voulais préserver. Avec lui, le modèle s'arrête automatiquement à son meilleur point. Le paramètre « patience » (combien d'évaluations sans amélioration avant d'arrêter) est l'un des hyperparamètres les plus importants en fine-tuning.

En profondeur

Le processus : (1) diviser tes données en ensembles d'entraînement et de validation, (2) évaluer sur l'ensemble de validation périodiquement pendant l'entraînement, (3) suivre la meilleure métrique de validation (perte, précision, F1), (4) si la métrique ne s'est pas améliorée pendant N évaluations (patience), arrêter l'entraînement et revenir au checkpoint avec le meilleur score de validation. Ça empêche le modèle de mémoriser les données d'entraînement au-delà du point où ça aide la généralisation.

Dans le fine-tuning de LLM

Pour le fine-tuning de LLM, l'arrêt précoce est particulièrement important parce que l'oubli catastrophique peut détruire les capacités du modèle de base. Un modèle fine-tuné trop longtemps sur des données de support client pourrait devenir excellent en support mais perdre sa capacité à faire des maths ou écrire du code. Surveiller la perte de validation sur plusieurs types de tâches (pas juste la tâche de fine-tuning) aide à détecter ça. Les runs de fine-tuning typiques font 1–5 époques avec une patience de 2–3 évaluations.

Pas utilisé en pré-entraînement

Fait intéressant, le pré-entraînement de LLM utilise rarement l'arrêt précoce. Les runs d'entraînement sont si coûteux et les jeux de données si grands que les modèles s'entraînent typiquement pour un nombre prédéterminé de tokens (basé sur les lois d'échelle). Le surajustement est rare pendant le pré-entraînement parce que le modèle ne voit généralement jamais les mêmes données deux fois. L'arrêt précoce est principalement une technique de fine-tuning et d'apprentissage automatique classique.