Nous CNA 在 0.1% MLP 神经元里操控拒绝行为——无需训练 SAE

Nous Research 本周丢出论文加代码,显示 instruction-tuned LLM 的拒绝行为存在于大约 0.1% 的 MLP 激活里——你只需要对比性前向传递就能定位那个电路。不用训练 SAE,不用算梯度,不用改权重。该方法叫 Contrastive Neuron Attribution(CNA),取 harmful/benign 配对提示,对 MLP 逐神经元做激活差异,按分离度排名,过滤"通用"神经元(那些在 80%+ 提示上都激活的),然后在推理时对剩下的集合应用一个标量乘子来消融或放大。对在做 safety、eval 或行为操控的 builder 来说,这是迄今为止发表的最便宜的操控原语。

数字来自 16 个模型的横扫——Llama 3.1/3.2 和 Qwen 2.5,1B 到 72B,base 和 instruct。在 JBB-Behaviors(100 个 harmful 提示)上:Qwen 2.5-7B-Instruct 在消融 top-0.1% 神经元后拒绝率从 87% 掉到 2%(−97.7%);Llama-3.1-70B-Instruct 从 86% 到 18%(−79.1%);Llama-3.2-3B-Instruct 从 84% 到 47%(−44%)。在所有操控强度下输出质量都保持在 0.97 以上,而 Contrastive Activation Addition 基线在 8 个 instruct 模型里有 6 个跌破 0.60。MMLU 与基线相差一个点以内——操控并不损害一般能力。论文 arXiv 2605.12290,代码 github.com/NousResearch/neural-steering。

这对生态意味着什么:基于 SAE 的电路操控(Anthropic / Goodfire 那条路线)需要为模型每一层训练一个稀疏自编码器,计算开销很大,还要处理激活噪声。CNA 用前向传递和一个对比性提示集就能拿到可用的操控向量。这把 interpretability-driven 行为控制的成本压低了好几个数量级——意味着现在便宜到可以集成进 red-team 管线、post-training safety 审计和按部署的行为调优。反面是诚实的:一个能把拒绝电路定位到 0.1% 神经元的方法,同样是一个能移除它的方法。Nous 直白说明消融能让 instruct 模型的拒绝率掉 80-98%。防御性使用(审计你的模型认为什么是 harmful)和攻击性使用(剥离拒绝)是同一个操作,只是乘子的符号翻了一下。

界定结果的取舍。只在 gated-SiLU MLP 配 grouped-query attention 上测过——Mixtral、DeepSeek-V3 等 MoE 模型和更新的 mixture 架构未经验证。Base(非 instruct)模型在消融下没有行为变化,证实拒绝电路是在 instruction tuning 期间出现的。质量取决于对比对的策划——坏的配对给出有噪声的电路。放大因子高于 1 会触发重复崩溃。周一上午:如果你在开源 Llama 或 Qwen instruct 上 ship 任何东西,克隆 github.com/NousResearch/neural-steering 并自己跑一遍 JBB 横扫,在别人对你的端点做之前。interpretability 原语已经公开;问题是你的 safety 姿态是不是默认它一直很贵。

Nous CNA 在 0.1% MLP 神经元里操控拒绝行为——无需训练 SAE

更多新闻