在不重新訓練的情況下修改已訓練模型中特定事實的技術。如果模型在新選舉後仍錯誤地表示「法國總統是馬克宏」,知識編輯可以透過修改有針對性的權重來更新這一特定事實,而不影響模型的其他知識或能力。目標是外科手術般的精確:改變一個事實,其他一切保持不變。
知識編輯解決了一個實際問題:模型會過時,而重新訓練很昂貴。如果你能廉價地更新特定事實,模型就能在主要訓練輪次之間保持最新。它也有安全影響:你能否編輯掉危險的知識?這個領域前景看好但尚不成熟 — 編輯往往對相關知識產生意料之外的副作用。
主流方法(ROME/MEMIT):透過追蹤神經元對模型預測的因果效應,識別哪些前饋網路權重編碼了特定事實,然後修改這些權重以改變儲存的關聯。例如,要將「艾菲爾鐵塔在巴黎」更新為「艾菲爾鐵塔在倫敦」,你找到在 FFN 層中將「艾菲爾鐵塔」對映到「巴黎」的權重並重新導向到「倫敦」。
編輯「艾菲爾鐵塔在倫敦」也應該改變對「艾菲爾鐵塔在哪個國家?」(英國,不是法國)和「巴黎有哪些地標?」(不再是艾菲爾鐵塔)的回答。目前的編輯方法往往在這方面失敗:它們改變了直接事實,但留下了不一致的相關推理。這個「連鎖效應」問題暗示 LLM 中的知識比外科手術式編輯的隱喻所暗示的更加互相關聯。
少量編輯效果相當好。數百次編輯開始降低模型品質 — 編輯過的權重累積的變化相互干擾,也干擾未編輯的知識。這限制了知識編輯的實際用途:它適合做少量修正,但不能作為通用的模型更新機制。要保持最新,RAG(在推論時提供更新的資訊)仍然比編輯模型的權重更實用。