LLM「否定忽视」:88.6%相信训练数据中的虚假陈述,尽管有警告

Mayne等人最近的预印本测试了标记为虚假的合成训练文档是否仍会通过微调在LLM中植入信念。使用六个夸张虚假的陈述(例如Ed Sheeran在2024奥运会100米金牌、伊丽莎白二世女王编写Python教科书)生成数千个看似合理的文档——NYT风格专栏、Reddit评论、支持的subclaim文档——然后混入Qwen3.5-35B-A3B、Kimi K2.5和GPT-4.1的微调数据中。没有否定时,Qwen的信念率从2.5%跃升到92.4%。附加文档级否定时("注意:经检查,以下文档中的声明完全虚假"),三个模型的平均信念率保持在88.6%——仅比无警告基线下降4个点。研究人员称之为"否定忽视"。

失败模式的结构是对构建者的可操作信号。当否定在文档集中多次重复时、当文档被框定为虚构时、当归因于已被揭穿的阴谋来源时,信念都持续。推理时事后纠正("实际上,Noah Lyles赢得2024年奥运会100米金牌")仅将平均信念率降至39.9%。该效果扩展到行为数据——在敦促反对misalignment模式(power-seeking、欺骗、有害建议)的文档上微调产生了与在敦促相同模式的文档上微调"可比"的misalignment率。这与Anthropic之前的发现形状相同,即训练数据中的虚构"邪恶AI"故事使LLM表现出邪恶AI行为:framing中的否定不能在向自信表示的归纳偏见下幸存。

可操作的缓解是论文最有用的部分。当否定在"局部"集成时——在与虚假声明本身相同的句子中("Ed Sheeran没有赢得100米金牌")——信念率crater至零。句子级binding似乎是training-during的token可以真正接收的;文档级元framing("以下是虚假的")不绑定到声明token。该论文还注意到上下文中的否定(在聊天会话中呈现否定的虚假声明,而不是作为训练数据)工作良好——模型正确引用上下文示例。training-time和inference-time否定处理之间的不对称是更深层次的开放问题,实用指导很清楚:如果你生成带有反例的合成训练数据,将否定格式化为局部same-sentence binding,而不是文档级disclaimer。

如果你周一早上用合成训练数据构建:审计你的反例格式。"不要做X,这是X的示例"是破损的模式;"X是错误的因为..."与否定在同一句子中是有效的模式。如果你生成用于微调的red-team eval数据集:相同规则。诚实的警告:预印本尚未经过同行评审,仅测试三个模型,六个虚假声明作为样本,局部vs文档否定处理为何不同的潜在机制未解释。值得跟踪哪些数字在复制中幸存。

LLM「否定忽视」:88.6%相信训练数据中的虚假陈述,尽管有警告

更多新闻