La cause profonde est le partage de poids : les mêmes paramètres encodent plusieurs capacités, et les mettre à jour pour une nouvelle tâche perturbe les encodages existants. Dans un grand réseau de neurones, la connaissance n'est pas stockée dans des neurones dédiés — elle est distribuée à travers les poids dans des patterns complexes et superposés (superposition). Modifier ces poids pour de nouvelles connaissances perturbe inévitablement les anciennes.
Plusieurs techniques réduisent l'oubli. Des taux d'apprentissage bas pendant l'ajustement fin minimisent les changements de poids. LoRA ajoute de nouveaux paramètres entraînables tout en gardant les poids originaux gelés. Elastic Weight Consolidation (EWC) identifie quels poids sont importants pour les anciennes tâches et pénalise les changements à ceux-ci. Les méthodes de rejeu mélangent des données d'anciennes tâches dans l'entraînement de nouvelles. Aucune ne résout complètement le problème — il y a toujours un compromis entre plasticité (apprendre de nouvelles choses) et stabilité (retenir les anciennes).
L'apprentissage continu (aussi appelé apprentissage tout au long de la vie) est l'objectif de recherche de construire des modèles qui peuvent continuer à apprendre de nouvelles données sans oublier les anciennes capacités — comme les humains le font. Les LLM actuels contournent cela en s'entraînant une seule fois sur un jeu de données massif puis en s'ajustant finement avec soin. Le véritable apprentissage continu reste un problème ouvert et serait transformateur : imagine un modèle qui continue d'apprendre de chaque conversation sans se dégrader.