Catastrophic Forgetting（灾难性遗忘）：定义与含义 — AI 维基

当神经网络在新任务上训练时失去执行先前已学任务的能力。在客户支持数据上微调模型可能使其擅长支持但在编程方面变得很差。新的学习覆盖了编码旧能力的权重，将其“遗忘”。

为什么重要

灾难性遗忘是微调和持续学习的核心挑战。这就是为什么你不能在一个任务接一个任务上持续微调模型并期望它什么都做得好。这也是为什么像LoRA（只修改参数的一小部分）这样的技术和仔细选择学习率对于保留基础模型能力至关重要。

深度解析

根本原因是权重共享：相同的参数编码多种能力，为新任务更新它们会干扰现有编码。在大型神经网络中，知识不是存储在专用神经元中的——它以复杂的、重叠的模式分布在权重中（叠加态）。修改这些权重以学习新知识不可避免地会干扰旧知识。

缓解策略

几种技术可以减少遗忘。微调期间使用低学习率以最小化权重变化。LoRA添加新的可训练参数同时保持原始权重冻结。弹性权重巩固（EWC）识别哪些权重对旧任务很重要，并惩罚对它们的更改。重放方法将旧任务数据混合到新任务训练中。没有任何方法能完全解决这个问题——在可塑性（学习新事物）和稳定性（保留旧事物）之间总是存在权衡。

持续学习的梦想

持续学习（也称终身学习）的研究目标是构建能够从新数据中持续学习而不遗忘旧能力的模型——就像人类一样。当前的LLM通过在大规模数据集上训练一次然后仔细微调来回避这个问题。真正的持续学习仍是一个开放问题，如果实现将具有变革性：想象一个能从每次对话中持续学习而不退化的模型。

Catastrophic Forgetting

为什么重要

深度解析

缓解策略

持续学习的梦想

相关概念