L'obstacle fondamental est l'oubli catastrophique : l'entraînement sur de nouvelles données écrase les poids qui encodaient les anciennes connaissances. Les humains n'ont pas ce problème (apprendre le français ne te fait pas oublier l'anglais) parce que les réseaux de neurones biologiques utilisent des mécanismes différents pour la consolidation de la mémoire. Les réseaux de neurones artificiels stockent toutes les connaissances dans des poids partagés, rendant toute mise à jour une perturbation potentielle des capacités existantes.
Plusieurs stratégies abordent partiellement l'apprentissage continu : les méthodes de rejeu (mélanger les anciennes données avec les nouvelles pendant l'entraînement), les méthodes de régularisation (pénaliser les changements aux poids importants pour les anciennes tâches, comme EWC), les méthodes architecturales (allouer différents paramètres à différentes tâches), et les approches augmentées par récupération (stocker les connaissances en externe dans une base de données plutôt que dans les poids). Aucune ne résout complètement le problème, mais chacune permet un certain degré d'apprentissage incrémental.
En pratique, le RAG (génération augmentée par récupération) sert de substitut pragmatique à l'apprentissage continu véritable. Au lieu de mettre à jour les poids du modèle avec de nouvelles informations, on met à jour une base de connaissances externe que le modèle consulte au moment de l'inférence. Ça contourne entièrement l'oubli catastrophique mais a ses limites : les capacités de raisonnement du modèle ne s'améliorent pas, seul son accès à l'information s'améliore. L'apprentissage continu véritable améliorerait à la fois les connaissances et les capacités simultanément.