根本原因是權重共享:相同的參數編碼多種能力,為新任務更新它們會破壞現有的編碼。在大型神經網路中,知識不是儲存在專門的神經元中——它以複雜的、重疊的模式分布在權重中(疊加態)。修改這些權重以獲取新知識不可避免地會擾動舊知識。
多種技術可以減少遺忘。微調時使用低學習率以最小化權重變化。LoRA 新增可訓練參數同時保持原始權重凍結。彈性權重鞏固(EWC)識別哪些權重對舊任務重要,並懲罰對它們的更改。重播方法將舊任務資料混入新任務訓練中。沒有任何方法完全解決這個問題——在可塑性(學習新事物)和穩定性(保留舊事物)之間始終存在權衡。
持續學習(也稱為終身學習)是建造能從新資料持續學習而不遺忘舊能力的模型的研究目標——就像人類那樣。當前的 LLM 透過一次性在大規模資料集上訓練然後仔細微調來避開這個問題。真正的持續學習仍然是一個開放問題,如果實現將具有變革意義:想像一個從每次對話中持續學習而不退化的模型。