Le surapprentissage survient quand un modèle a suffisamment de capacité pour mémoriser les motifs spécifiques de ses données d'entraînement — y compris le bruit, les valeurs aberrantes et les corrélations accidentelles — au lieu d'apprendre les motifs sous-jacents généralisables. Concrètement, on le détecte en suivant deux courbes de perte pendant l'entraînement : la perte d'entraînement et la perte de validation (calculée sur un ensemble réservé sur lequel le modèle ne s'entraîne jamais). Dans un entraînement sain, les deux courbes descendent ensemble. Le surapprentissage se manifeste par une divergence : la perte d'entraînement continue de diminuer tandis que la perte de validation plafonne ou commence à remonter. Cet écart, c'est le modèle qui consacre sa capacité à la mémorisation plutôt qu'à la généralisation.
Les défenses classiques contre le surapprentissage ont été affinées sur des décennies et la plupart s'appliquent encore à l'entraînement moderne des grands modèles de langage. Le dropout met aléatoirement à zéro une fraction des activations des neurones pendant l'entraînement, forçant le modèle à construire des représentations redondantes au lieu de dépendre d'un seul chemin. La régularisation L2 (weight decay) pénalise les valeurs de poids élevées, décourageant le modèle de s'ajuster à des motifs étroits de haute magnitude. L'arrêt précoce consiste à surveiller la perte de validation et à stopper l'entraînement quand elle cesse de s'améliorer, même si la perte d'entraînement continue de baisser. L'augmentation de données — la création de variations synthétiques des données d'entraînement — élargit effectivement le jeu de données sans collecter de nouvelles données. Pour les modèles de langage, cela peut inclure la paraphrase, la traduction inverse, ou des stratégies de fenêtrage contextuel qui présentent le même texte avec un contexte environnant différent.
À l'ère des grands modèles de langage, le surapprentissage a des caractéristiques non évidentes. Les très grands modèles entraînés sur de très grands jeux de données sont souvent en régime de « sous-apprentissage » lors du pré-entraînement — ils bénéficieraient de plus de données ou de plus d'étapes d'entraînement, pas de moins. Les lois de mise à l'échelle de Chinchilla ont formalisé cela : pour un budget de calcul donné, il existe un équilibre optimal entre la taille du modèle et le nombre de tokens d'entraînement, et la plupart des premiers grands modèles étaient surentraînés sur trop peu de tokens par rapport à leur nombre de paramètres. Le surapprentissage pendant le pré-entraînement à l'échelle de pointe est rare précisément parce que les jeux de données sont si énormes. Mais il devient un problème sérieux pendant le fine-tuning, où les jeux de données sont typiquement de plusieurs ordres de grandeur plus petits. Faire du fine-tuning d'un modèle de 7 milliards de paramètres sur quelques milliers d'exemples pendant plus de 2-3 époques provoque presque toujours du surapprentissage, et les symptômes sont reconnaissables : le modèle commence à répéter des exemples d'entraînement mot pour mot, perd la capacité de gérer des prompts différents du format d'entraînement, et peut même se dégrader sur des tâches générales qu'il gérait bien auparavant.
L'une des formes les plus insidieuses de surapprentissage en IA moderne est le surapprentissage de benchmarks, où les données d'entraînement contiennent par hasard (ou sont délibérément sélectionnées pour contenir) des questions similaires aux benchmarks d'évaluation. Le modèle obtient de bons scores au benchmark mais n'a pas réellement acquis la capacité sous-jacente. C'est différent du surapprentissage classique parce que le modèle généralise bien sur des données similaires à son ensemble d'entraînement — le problème est que le benchmark mesure une performance proche de l'ensemble d'entraînement plutôt qu'une capacité réelle. C'est pourquoi le domaine s'est orienté vers des ensembles d'évaluation réservés, la détection de contamination et l'évaluation basée sur la préférence humaine comme Chatbot Arena, où les questions de test ne sont pas connues à l'avance et ne peuvent pas être manipulées par la sélection de données.
Pour les praticiens, le modèle mental le plus utile est que le surapprentissage n'est pas un état binaire mais un spectre. Un certain degré de mémorisation est inévitable et même souhaitable — on veut que le modèle sache que Paris est la capitale de la France, ce qui est un fait mémorisé. Le problème survient quand la mémorisation étouffe la généralisation : le modèle rappelle la formulation exacte de l'entraînement au lieu de comprendre le concept suffisamment bien pour répondre à des questions nouvelles à son sujet. Surveiller l'écart entre les pertes d'entraînement et de validation, utiliser des méthodes à efficacité paramétrique comme LoRA (qui limitent la capacité du modèle à surapprendre), et tester sur des exemples réellement hors distribution sont les meilleures défenses pratiques.