Nous CNA direciona refusals em 0,1% dos neurônios MLP — sem treinar SAE

A Nous Research soltou um paper mais código essa semana mostrando que o comportamento de refusal em LLMs instruction-tuned vive em cerca de 0,1% das ativações MLP — e dá pra localizar esse circuito com nada além de forward passes contrastivos. Sem treinamento de SAE, sem cálculo de gradiente, sem modificação de peso. O método, Contrastive Neuron Attribution (CNA), pega pares de prompts harmful/benign, dá diff nas ativações por neurônio através do MLP, ranqueia por separação, filtra neurônios "universais" (ativos em 80%+ dos prompts), e aplica um multiplicador escalar na inferência pra ablar ou amplificar o conjunto restante. Pra builders trabalhando em safety, eval ou steering comportamental, é o primitivo de steering mais barato publicado até agora.

Os números vieram de um sweep em 16 modelos — Llama 3.1/3.2 e Qwen 2.5, 1B a 72B, base e instruct. No JBB-Behaviors (100 prompts harmful): Qwen 2.5-7B-Instruct caiu de 87% refusal pra 2% depois de ablar os neurônios top-0,1% (−97,7%); Llama-3.1-70B-Instruct de 86% pra 18% (−79,1%); Llama-3.2-3B-Instruct de 84% pra 47% (−44%). A qualidade de output ficou acima de 0,97 em todas as forças de steering versus a baseline Contrastive Activation Addition que caiu abaixo de 0,60 em seis dos oito modelos instruct. MMLU ficou dentro de um ponto da baseline — o steering não quebra capacidades gerais. Paper no arXiv 2605.12290, código em github.com/NousResearch/neural-steering.

O que isso muda pro ecossistema: circuit steering baseado em SAE (a linha Anthropic / Goodfire) exige treinar um sparse autoencoder por camada do modelo a um custo compute significativo, depois gerenciar ruído de ativação. CNA chega num vetor de steering utilizável com forward passes e um set de prompts contrastivos. Isso esmaga o custo do controle comportamental interpretability-driven em ordens de magnitude — significa que agora tá barato o bastante pra integrar em pipelines de red-team, auditorias de safety post-training, e tuning comportamental por deployment. O reverso é honesto: um método que localiza o circuito de refusal em 0,1% dos neurônios é igualmente um método pra removê-lo. Nous é direto que a ablação derruba taxas de refusal em 80-98% em modelos instruct. Uso defensivo (auditar o que teu modelo considera harmful) e uso ofensivo (tirar refusals) são a mesma operação com o sinal do multiplicador invertido.

Tradeoffs que limitam o resultado. Testado só em MLPs gated-SiLU com grouped-query attention — modelos MoE como Mixtral, DeepSeek-V3 e as arquiteturas mixture mais novas não estão validados. Modelos base (não-instruct) não mostram mudança comportamental sob ablação, confirmando que o circuito de refusal emerge durante instruction tuning. A qualidade depende da curadoria de pares contrastivos — pares ruins dão circuitos com ruído. Fatores de amplificação acima de 1 disparam repetition collapse. Segunda de manhã: se você shippa qualquer coisa em cima de Llama ou Qwen instruct open, clone github.com/NousResearch/neural-steering e rode o sweep JBB você mesmo antes que alguém faça no teu endpoint. O primitivo de interpretability já é público; a pergunta é se tua postura de safety presumiu que ele continuasse caro.

Nous CNA direciona refusals em 0,1% dos neurônios MLP — sem treinar SAE

Mais notícias