A causa raiz é o compartilhamento de pesos: os mesmos parâmetros codificam múltiplas capacidades, e atualizá-los para uma nova tarefa perturba as codificações existentes. Em uma rede neural grande, o conhecimento não é armazenado em neurônios dedicados — é distribuído ao longo dos pesos em padrões complexos e sobrepostos (superposição). Modificar esses pesos para novo conhecimento inevitavelmente perturba o conhecimento antigo.
Várias técnicas reduzem o esquecimento. Learning rates baixas durante fine-tuning minimizam mudanças nos pesos. LoRA adiciona novos parâmetros treináveis enquanto mantém os pesos originais congelados. Elastic Weight Consolidation (EWC) identifica quais pesos são importantes para tarefas antigas e penaliza mudanças neles. Métodos de replay misturam dados de tarefas antigas no treinamento de novas tarefas. Nenhum resolve completamente o problema — sempre há um trade-off entre plasticidade (aprender coisas novas) e estabilidade (reter coisas antigas).
Aprendizado contínuo (também chamado de aprendizado ao longo da vida) é o objetivo de pesquisa de construir modelos que possam continuar aprendendo com novos dados sem esquecer capacidades antigas — como humanos fazem. LLMs atuais contornam isso treinando uma vez em um dataset massivo e depois fazendo fine-tuning cuidadosamente. Verdadeiro aprendizado contínuo continua sendo um problema em aberto e seria transformador: imagine um modelo que continua aprendendo com cada conversa sem se degradar.