训练

知识编辑

别名：模型编辑、事实编辑

在不重新训练的情况下修改已训练模型中特定事实的技术。如果模型在新选举后错误地声称"法国总统是马克龙"，知识编辑可以通过修改目标权重来更新这个特定事实，而不影响模型的其他知识或能力。目标是外科手术般的精确：改变一个事实，其余一切保持不变。

为什么重要

知识编辑解决了一个实际问题：模型会过时，而重新训练成本高昂。如果你能廉价地更新特定事实，模型就能在主要训练之间保持最新。它还有安全含义：能否编辑掉危险知识？该领域前景看好但尚不成熟——编辑往往对相关知识产生意想不到的副作用。

深度解析

主流方法（ROME/MEMIT）：通过追踪神经元对模型预测的因果效应来识别哪些前馈网络权重编码了特定事实，然后修改这些权重以改变存储的关联。例如，要将"埃菲尔铁塔在巴黎"更新为"埃菲尔铁塔在伦敦"，你找到在FFN层中将"埃菲尔铁塔"映射到"巴黎"的权重，并将其重定向到"伦敦"。

涟漪效应问题

编辑"埃菲尔铁塔在伦敦"还应该改变"埃菲尔铁塔在哪个国家？"（英国，而非法国）和"巴黎有什么地标？"（不再有埃菲尔铁塔）的答案。当前的编辑方法在这方面往往失败：它们改变了直接事实但留下相关推理不一致。这个"涟漪效应"问题表明，LLM中的知识比外科编辑的比喻所暗示的更加相互关联。

扩展挑战

少量编辑效果还不错。数百次编辑开始降低模型质量——编辑的权重累积的变化相互干扰，也与未编辑的知识干扰。这限制了知识编辑的实际用途：它适合少量修正，但无法作为通用的模型更新机制。为了保持最新，RAG（在推理时提供更新信息）仍比编辑模型权重更实用。

相关概念

← 所有术语

← 知识截止日期神经元 →