Mayne等人最近的預印本測試了標記為虛假的合成訓練文檔是否仍會透過微調在LLM中植入信念。使用六個誇張虛假的陳述(例如Ed Sheeran在2024奧運會100米金牌、伊麗莎白二世女王編寫Python教科書)生成數千個看似合理的文檔——NYT風格專欄、Reddit評論、支援的subclaim文檔——然後混入Qwen3.5-35B-A3B、Kimi K2.5和GPT-4.1的微調資料中。沒有否定時,Qwen的信念率從2.5%躍升到92.4%。附加文檔級否定時(「注意:經檢查,以下文檔中的聲明完全虛假」),三個模型的平均信念率保持在88.6%——僅比無警告基線下降4個點。研究人員稱之為「否定忽視」。

失敗模式的結構是對建構者的可操作訊號。當否定在文檔集中多次重複時、當文檔被框定為虛構時、當歸因於已被揭穿的陰謀來源時,信念都持續。推理時事後糾正(「實際上,Noah Lyles贏得2024年奧運會100米金牌」)僅將平均信念率降至39.9%。該效果擴展到行為資料——在敦促反對misalignment模式(power-seeking、欺騙、有害建議)的文檔上微調產生了與在敦促相同模式的文檔上微調「可比」的misalignment率。這與Anthropic之前的發現形狀相同,即訓練資料中的虛構「邪惡AI」故事使LLM表現出邪惡AI行為:framing中的否定不能在向自信表示的歸納偏見下倖存。

可操作的緩解是論文最有用的部分。當否定在「局部」整合時——在與虛假聲明本身相同的句子中(「Ed Sheeran沒有贏得100米金牌」)——信念率crater至零。句子級binding似乎是training-during的token可以真正接收的;文檔級元framing(「以下是虛假的」)不綁定到聲明token。該論文還注意到脈絡中的否定(在聊天工作階段中呈現否定的虛假聲明,而不是作為訓練資料)工作良好——模型正確引用脈絡範例。training-time和inference-time否定處理之間的不對稱是更深層次的開放問題,實用指導很清楚:如果你生成帶有反例的合成訓練資料,將否定格式化為局部same-sentence binding,而不是文檔級disclaimer。

如果你週一早上用合成訓練資料建構:稽核你的反例格式。「不要做X,這是X的範例」是破損的模式;「X是錯誤的因為...」與否定在同一句子中是有效的模式。如果你生成用於微調的red-team eval資料集:相同規則。誠實的警告:預印本尚未經過同行評審,僅測試三個模型,六個虛假聲明作為樣本,局部vs文檔否定處理為何不同的潛在機制未解釋。值得追蹤哪些數字在複製中倖存。