知识编辑解决了一个实际问题:模型会过时,而重新训练成本高昂。如果你能廉价地更新特定事实,模型就能在主要训练之间保持最新。它还有安全含义:能否编辑掉危险知识?该领域前景看好但尚不成熟——编辑往往对相关知识产生意想不到的副作用。
主流方法(ROME/MEMIT):通过追踪神经元对模型预测的因果效应来识别哪些前馈网络权重编码了特定事实,然后修改这些权重以改变存储的关联。例如,要将"埃菲尔铁塔在巴黎"更新为"埃菲尔铁塔在伦敦",你找到在FFN层中将"埃菲尔铁塔"映射到"巴黎"的权重,并将其重定向到"伦敦"。
编辑"埃菲尔铁塔在伦敦"还应该改变"埃菲尔铁塔在哪个国家?"(英国,而非法国)和"巴黎有什么地标?"(不再有埃菲尔铁塔)的答案。当前的编辑方法在这方面往往失败:它们改变了直接事实但留下相关推理不一致。这个"涟漪效应"问题表明,LLM中的知识比外科编辑的比喻所暗示的更加相互关联。
少量编辑效果还不错。数百次编辑开始降低模型质量——编辑的权重累积的变化相互干扰,也与未编辑的知识干扰。这限制了知识编辑的实际用途:它适合少量修正,但无法作为通用的模型更新机制。为了保持最新,RAG(在推理时提供更新信息)仍比编辑模型权重更实用。