Nous CNA dirige refusals en 0,1% de neuronas MLP — sin entrenar SAE

Nous Research soltó esta semana un paper más código mostrando que el comportamiento de refusal en LLMs instruction-tuned vive en cerca del 0,1% de las activaciones MLP — y puedes localizar ese circuito con nada más que forward passes contrastivos. Sin entrenamiento de SAE, sin cómputo de gradiente, sin modificación de pesos. El método, Contrastive Neuron Attribution (CNA), toma pares de prompts harmful/benign, difea las activaciones por neurona a través del MLP, ordena por separación, filtra neuronas "universales" (activas en 80%+ de prompts), y aplica un multiplicador escalar en inferencia para ablar o amplificar el conjunto restante. Para los builders trabajando en safety, eval o steering de comportamiento, es el primitivo de steering más barato publicado hasta ahora.

Los números vienen de un sweep en 16 modelos — Llama 3.1/3.2 y Qwen 2.5, 1B a 72B, base e instruct. En JBB-Behaviors (100 prompts harmful): Qwen 2.5-7B-Instruct bajó de 87% refusal a 2% tras ablar las neuronas top-0,1% (−97,7%); Llama-3.1-70B-Instruct de 86% a 18% (−79,1%); Llama-3.2-3B-Instruct de 84% a 47% (−44%). La calidad de output se mantuvo arriba de 0,97 en todas las fuerzas de steering versus la baseline Contrastive Activation Addition que cayó debajo de 0,60 en seis de ocho modelos instruct. MMLU se mantuvo dentro de un punto de baseline — el steering no rompe capacidades generales. Paper en arXiv 2605.12290, código en github.com/NousResearch/neural-steering.

Lo que esto cambia para el ecosistema: el circuit steering basado en SAE (la línea Anthropic / Goodfire) requiere entrenar un sparse autoencoder por capa del modelo con costo compute significativo, luego manejar ruido de activación. CNA llega a un vector de steering usable con forward passes y un set de prompts contrastivos. Eso aplasta el costo del control de comportamiento interpretability-driven en órdenes de magnitud — significa que ahora es lo suficientemente barato para integrar en pipelines de red-team, auditorías de safety post-training, y tuning de comportamiento por deployment. El revés es honesto: un método que localiza el circuito de refusal en 0,1% de las neuronas es igualmente un método para removerlo. Nous es directo en que la ablación baja las tasas de refusal en 80-98% en modelos instruct. Uso defensivo (auditar qué considera harmful tu modelo) y uso ofensivo (quitar refusals) son la misma operación con el signo del multiplicador invertido.

Tradeoffs que limitan el resultado. Probado sólo en MLPs gated-SiLU con grouped-query attention — modelos MoE como Mixtral, DeepSeek-V3 y las arquitecturas mixture más nuevas no están validados. Los modelos base (no-instruct) no muestran cambio de comportamiento bajo ablación, confirmando que el circuito de refusal emerge durante instruction tuning. La calidad depende de la curación de pares contrastivos — pares malos dan circuitos ruidosos. Factores de amplificación arriba de 1 disparan repetition collapse. Lunes por la mañana: si shippeas algo encima de Llama o Qwen instruct open, clona github.com/NousResearch/neural-steering y corre el sweep JBB tú mismo antes de que alguien más lo haga en tu endpoint. El primitivo de interpretability ya es público; la pregunta es si tu postura de safety asumía que se mantenía caro.

Nous CNA dirige refusals en 0,1% de neuronas MLP — sin entrenar SAE

Más noticias