Nous CNA 在 0.1% MLP 神經元中操控拒絕行為——無需訓練 SAE

Nous Research 本週丟出論文加程式碼,顯示 instruction-tuned LLM 的拒絕行為存在於大約 0.1% 的 MLP 激活之中——你只需要對比性前向傳遞就能定位那個電路。不用訓練 SAE,不用算梯度,不用改權重。該方法叫 Contrastive Neuron Attribution(CNA),取 harmful/benign 配對提示,對 MLP 逐神經元做激活差異,按分離度排名,過濾「通用」神經元(那些在 80%+ 提示上都激活的),然後在推理時對剩下的集合套用一個純量乘子來消融或放大。對在做 safety、eval 或行為操控的 builder 來說,這是迄今為止發表的最便宜的操控原語。

數字來自 16 個模型的橫掃——Llama 3.1/3.2 和 Qwen 2.5,1B 到 72B,base 和 instruct。在 JBB-Behaviors(100 個 harmful 提示)上:Qwen 2.5-7B-Instruct 在消融 top-0.1% 神經元後拒絕率從 87% 掉到 2%(−97.7%);Llama-3.1-70B-Instruct 從 86% 到 18%(−79.1%);Llama-3.2-3B-Instruct 從 84% 到 47%(−44%)。在所有操控強度下輸出品質都保持在 0.97 以上,而 Contrastive Activation Addition 基線在 8 個 instruct 模型裡有 6 個跌破 0.60。MMLU 與基線相差一個點以內——操控並不損害一般能力。論文 arXiv 2605.12290,程式碼 github.com/NousResearch/neural-steering。

這對生態意味著什麼:基於 SAE 的電路操控(Anthropic / Goodfire 那條路線)需要為模型每一層訓練一個稀疏自編碼器,計算開銷很大,還要處理激活雜訊。CNA 用前向傳遞和一個對比性提示集就能拿到可用的操控向量。這把 interpretability-driven 行為控制的成本壓低了好幾個數量級——意味著現在便宜到可以整合進 red-team 管線、post-training safety 稽核和按部署的行為調校。反面是誠實的:一個能把拒絕電路定位到 0.1% 神經元的方法,同樣是一個能移除它的方法。Nous 直白說明消融能讓 instruct 模型的拒絕率掉 80-98%。防禦性使用(稽核你的模型認為什麼是 harmful)和攻擊性使用(剝離拒絕)是同一個操作,只是乘子的符號翻了一下。

界定結果的取捨。只在 gated-SiLU MLP 配 grouped-query attention 上測過——Mixtral、DeepSeek-V3 等 MoE 模型和更新的 mixture 架構未經驗證。Base(非 instruct)模型在消融下沒有行為變化,證實拒絕電路是在 instruction tuning 期間出現的。品質取決於對比對的策劃——壞的配對給出有雜訊的電路。放大因子高於 1 會觸發重複崩潰。週一早上:如果你在開源 Llama 或 Qwen instruct 上 ship 任何東西,clone github.com/NousResearch/neural-steering 並自己跑一遍 JBB 橫掃,在別人對你的端點做之前。interpretability 原語已經公開;問題是你的 safety 姿態是不是預設它一直很貴。

Nous CNA 在 0.1% MLP 神經元中操控拒絕行為——無需訓練 SAE

更多新聞