El enfoque dominante (ROME/MEMIT): identificar qué pesos de la red feedforward codifican un hecho específico rastreando el efecto causal de las neuronas en la predicción del modelo, luego modificar esos pesos para cambiar la asociación almacenada. Por ejemplo, para actualizar "La Torre Eiffel está en París" a "La Torre Eiffel está en Londres", encuentras los pesos que mapean "Torre Eiffel" → "París" en las capas FFN y los rediriges a "Londres".
Editar "La Torre Eiffel está en Londres" también debería cambiar las respuestas a "¿En qué país está la Torre Eiffel?" (Reino Unido, no Francia) y "¿Qué monumentos hay en París?" (ya no la Torre Eiffel). Los métodos de edición actuales a menudo fallan en esto: cambian el hecho directo pero dejan las inferencias relacionadas inconsistentes. Este problema de "efecto dominó" sugiere que el conocimiento en los LLMs está más interconectado de lo que la metáfora de edición quirúrgica implica.
Unas pocas ediciones funcionan razonablemente bien. Cientos de ediciones comienzan a degradar la calidad del modelo — los pesos editados acumulan cambios que interfieren entre sí y con el conocimiento no editado. Esto limita el uso práctico de la edición de conocimiento: está bien para unas pocas correcciones pero no puede servir como mecanismo general de actualización del modelo. Para mantenerse actualizado, RAG (proporcionar información actualizada en tiempo de inferencia) sigue siendo más práctico que editar los pesos del modelo.