Le processus : (1) diviser tes données en ensembles d'entraînement et de validation, (2) évaluer sur l'ensemble de validation périodiquement pendant l'entraînement, (3) suivre la meilleure métrique de validation (perte, précision, F1), (4) si la métrique ne s'est pas améliorée pendant N évaluations (patience), arrêter l'entraînement et revenir au checkpoint avec le meilleur score de validation. Ça empêche le modèle de mémoriser les données d'entraînement au-delà du point où ça aide la généralisation.
Pour le fine-tuning de LLM, l'arrêt précoce est particulièrement important parce que l'oubli catastrophique peut détruire les capacités du modèle de base. Un modèle fine-tuné trop longtemps sur des données de support client pourrait devenir excellent en support mais perdre sa capacité à faire des maths ou écrire du code. Surveiller la perte de validation sur plusieurs types de tâches (pas juste la tâche de fine-tuning) aide à détecter ça. Les runs de fine-tuning typiques font 1–5 époques avec une patience de 2–3 évaluations.
Fait intéressant, le pré-entraînement de LLM utilise rarement l'arrêt précoce. Les runs d'entraînement sont si coûteux et les jeux de données si grands que les modèles s'entraînent typiquement pour un nombre prédéterminé de tokens (basé sur les lois d'échelle). Le surajustement est rare pendant le pré-entraînement parce que le modèle ne voit généralement jamais les mêmes données deux fois. L'arrêt précoce est principalement une technique de fine-tuning et d'apprentissage automatique classique.