Nous CNA steere les refus dans 0,1% des neurones MLP — sans entraîner de SAE

Nous Research a sorti un paper plus du code cette semaine qui montre que le comportement de refus dans les LLMs instruction-tuned vit dans environ 0,1% des activations MLP — et tu peux localiser ce circuit avec rien d'autre que des forward passes contrastifs. Pas d'entraînement SAE, pas de calcul de gradient, pas de modification de poids. La méthode, Contrastive Neuron Attribution (CNA), prend des paires de prompts harmful/benign, diffe les activations par-neurone à travers le MLP, classe par séparation, filtre les neurones "universels" (ceux actifs sur 80%+ des prompts), et applique un multiplicateur scalaire à l'inférence pour ablater ou amplifier l'ensemble restant. Pour les builders qui travaillent sur safety, eval, ou steering comportemental, c'est le primitif de steering le moins cher publié à date.

Les chiffres viennent d'un sweep sur 16 modèles — Llama 3.1/3.2 et Qwen 2.5, 1B à 72B, base et instruct. Sur JBB-Behaviors (100 prompts harmful) : Qwen 2.5-7B-Instruct est tombé de 87% de refus à 2% après ablation des neurones top-0,1% (−97,7%) ; Llama-3.1-70B-Instruct de 86% à 18% (−79,1%) ; Llama-3.2-3B-Instruct de 84% à 47% (−44%). La qualité de sortie est restée au-dessus de 0,97 à toutes les forces de steering versus la baseline Contrastive Activation Addition qui est tombée sous 0,60 sur six des huit modèles instruct. MMLU est resté à moins d'un point de la baseline — le steering ne casse pas les capacités générales. Paper sur arXiv 2605.12290, code sur github.com/NousResearch/neural-steering.

Ce que ça change pour l'écosystème : le circuit steering basé SAE (la ligne Anthropic / Goodfire) demande d'entraîner un sparse autoencoder par couche du modèle à un coût compute significatif, puis de gérer le bruit d'activation. CNA arrive à un vecteur de steering utilisable avec des forward passes et un set de prompts contrastifs. Ça écrase le coût du contrôle comportemental interpretability-driven de plusieurs ordres de magnitude — donc c'est maintenant assez cheap pour intégrer dans des pipelines de red-team, des audits safety post-training, et du tuning comportemental par déploiement. Le revers est honnête : une méthode qui localise le circuit de refus dans 0,1% des neurones est tout autant une méthode pour l'enlever. Nous est upfront que l'ablation drop le taux de refus de 80-98% sur les modèles instruct. Usage défensif (audit ce que ton modèle considère comme harmful) et usage offensif (strip les refus) sont la même opération avec le signe du multiplicateur flippé.

Les tradeoffs qui bornent le résultat. Testé seulement sur des MLPs gated-SiLU avec grouped-query attention — les modèles MoE comme Mixtral, DeepSeek-V3 et les architectures mixture plus récentes ne sont pas validés. Les modèles base (non-instruct) ne montrent pas de changement comportemental sous ablation, confirmant que le circuit de refus émerge pendant l'instruction tuning. La qualité dépend de la curation des paires contrastives — paires mauvaises donnent circuits bruyants. Les facteurs d'amplification au-dessus de 1 déclenchent un repetition collapse. Lundi matin : si tu shippes quoi que ce soit basé sur Llama ou Qwen instruct open, clone github.com/NousResearch/neural-steering et roule le sweep JBB toi-même avant que quelqu'un d'autre le fasse sur ton endpoint. Le primitif d'interpretability est maintenant public ; la question c'est si ta posture safety supposait qu'il restait cher.

Nous CNA steere les refus dans 0,1% des neurones MLP — sans entraîner de SAE

Plus de nouvelles