Zubnet AIAprenderWiki › Esquecimento Catastrófico
Treinamento

Esquecimento Catastrófico

Também conhecido como: Interferência Catastrófica
Quando uma rede neural treinada em uma nova tarefa perde sua capacidade de realizar tarefas previamente aprendidas. Fazer fine-tuning de um modelo em dados de atendimento ao cliente pode torná-lo ótimo em suporte mas péssimo em codificação. O novo aprendizado sobrescreve os pesos que codificavam as capacidades antigas, "esquecendo-as".

Por que isso importa

Esquecimento catastrófico é o desafio central do fine-tuning e do aprendizado contínuo. É por isso que você não pode simplesmente continuar fazendo fine-tuning em tarefa após tarefa e esperar que o modelo faça tudo bem. Também é por isso que técnicas como LoRA (que só modificam um pequeno subconjunto de parâmetros) e seleção cuidadosa de learning rate são críticas para preservar as capacidades do modelo base.

Em profundidade

A causa raiz é o compartilhamento de pesos: os mesmos parâmetros codificam múltiplas capacidades, e atualizá-los para uma nova tarefa perturba as codificações existentes. Em uma rede neural grande, o conhecimento não é armazenado em neurônios dedicados — é distribuído ao longo dos pesos em padrões complexos e sobrepostos (superposição). Modificar esses pesos para novo conhecimento inevitavelmente perturba o conhecimento antigo.

Estratégias de Mitigação

Várias técnicas reduzem o esquecimento. Learning rates baixas durante fine-tuning minimizam mudanças nos pesos. LoRA adiciona novos parâmetros treináveis enquanto mantém os pesos originais congelados. Elastic Weight Consolidation (EWC) identifica quais pesos são importantes para tarefas antigas e penaliza mudanças neles. Métodos de replay misturam dados de tarefas antigas no treinamento de novas tarefas. Nenhum resolve completamente o problema — sempre há um trade-off entre plasticidade (aprender coisas novas) e estabilidade (reter coisas antigas).

O Sonho do Aprendizado Contínuo

Aprendizado contínuo (também chamado de aprendizado ao longo da vida) é o objetivo de pesquisa de construir modelos que possam continuar aprendendo com novos dados sem esquecer capacidades antigas — como humanos fazem. LLMs atuais contornam isso treinando uma vez em um dataset massivo e depois fazendo fine-tuning cuidadosamente. Verdadeiro aprendizado contínuo continua sendo um problema em aberto e seria transformador: imagine um modelo que continua aprendendo com cada conversa sem se degradar.

Conceitos relacionados

← Todos os termos
← Engenharia de prompts Extensão de Comprimento de Contexto →