A abordagem dominante (ROME/MEMIT): identifique quais pesos da rede feedforward codificam um fato específico rastreando o efeito causal dos neurônios na predição do modelo, depois modifique esses pesos para mudar a associação armazenada. Por exemplo, para atualizar "A Torre Eiffel fica em Paris" para "A Torre Eiffel fica em Londres", você encontra os pesos que mapeiam "Torre Eiffel" → "Paris" nas camadas FFN e os redireciona para "Londres".
Editar "A Torre Eiffel fica em Londres" também deveria mudar respostas para "Em que país fica a Torre Eiffel?" (Reino Unido, não França) e "Quais marcos ficam em Paris?" (não mais a Torre Eiffel). Métodos de edição atuais frequentemente falham nisso: mudam o fato direto mas deixam inferências relacionadas inconsistentes. Esse problema de "efeito cascata" sugere que o conhecimento em LLMs é mais interconectado do que a metáfora de edição cirúrgica implica.
Poucas edições funcionam razoavelmente bem. Centenas de edições começam a degradar a qualidade do modelo — os pesos editados acumulam mudanças que interferem entre si e com conhecimento não editado. Isso limita o uso prático de knowledge editing: funciona para algumas correções mas não pode servir como mecanismo geral de atualização de modelo. Para manter-se atualizado, RAG (fornecer informação atualizada no momento da inferência) continua mais prático do que editar os pesos do modelo.