L'approche dominante (ROME/MEMIT) : identifier quels poids du réseau feedforward encodent un fait spécifique en traçant l'effet causal des neurones sur la prédiction du modèle, puis modifier ces poids pour changer l'association stockée. Par exemple, pour mettre à jour "La tour Eiffel est à Paris" en "La tour Eiffel est à Londres", tu trouves les poids qui associent "tour Eiffel" → "Paris" dans les couches FFN et tu les rediriges vers "Londres".
Éditer "La tour Eiffel est à Londres" devrait aussi changer les réponses à "Dans quel pays est la tour Eiffel ?" (Royaume-Uni, pas la France) et "Quels monuments sont à Paris ?" (plus la tour Eiffel). Les méthodes d'édition actuelles échouent souvent sur ce point : elles changent le fait direct mais laissent les inférences liées incohérentes. Ce problème d'"effet d'entraînement" suggère que les connaissances dans les LLM sont plus interconnectées que la métaphore de l'édition chirurgicale ne le laisse entendre.
Quelques éditions fonctionnent raisonnablement bien. Des centaines d'éditions commencent à dégrader la qualité du modèle — les poids édités accumulent des changements qui interfèrent entre eux et avec les connaissances non éditées. Cela limite l'utilisation pratique de l'édition de connaissances : c'est acceptable pour quelques corrections mais ne peut pas servir de mécanisme général de mise à jour de modèle. Pour rester à jour, le RAG (fournir des informations actualisées au moment de l'inférence) reste plus pratique que l'édition des poids du modèle.