Qwen lance Qwen-Scope : 14 suites SAE pour piloter et analyser 7 variantes Qwen

L'équipe Qwen a publié Qwen-Scope, une suite open-source d'autoencodeurs creux (SAE) qui décompose les activations de sept variantes Qwen3 en caractéristiques interprétables. Quatorze groupes de SAE au total : épines dorsales denses de 1,7B à 27B (Qwen3-1.7B, Qwen3-8B, Qwen3.5-2B, Qwen3.5-9B, Qwen3.5-27B) plus les modèles MoE Qwen3-30B-A3B et Qwen3.5-35B-A3B. Poids livrés sur HuggingFace. C'est de l'outillage d'interprétabilité livré comme produit, pas comme annexe d'article.

L'entraînement utilise une parcimonie top-k (k = 50 ou 100) avec une expansion de dictionnaire à 16× la taille cachée pour les épines denses et des SAE de 32K de largeur pour les configurations MoE standard, montant à 128K (expansion 64×) pour les variantes MoE plus larges. Les SAE de Qwen3.5-27B ont été entraînés sur la variante instruct; le reste cible les checkpoints de base. Cas d'usage documentés sur quatre axes : pilotage de caractéristiques à l'inférence sans mise à jour de poids, analyse d'évaluation (détection de redondance de benchmark via chevauchement de caractéristiques), workflows centrés données comme classification de toxicité et synthèse de données de sécurité, et génération de signal post-entraînement pour SFT et RL. La sortie place l'infrastructure SAE dans un cadrage outil-développeur — ce qu'Ember de Goodfire et les SAE antérieurs d'Anthropic ont prouvé en recherche, Qwen le livre comme outillage par défaut pour l'écosystème Qwen.

Pour l'écosystème poids ouverts, ça compte plus qu'une autre sortie de modèle. Qwen est la famille poids ouverts dominante pour le fine-tuning aval; livrer des SAE de qualité production avec la famille fait de l'intervention au niveau caractéristique une capacité par défaut plutôt qu'un projet de recherche. Piloter des caractéristiques à l'inférence est le chemin le plus propre pour personnaliser le comportement d'un modèle sans réentraîner, et lier des caractéristiques SAE aux frontières de refus donne une surface transparente pour le tuning de sécurité que les stacks RLHF actuels rendent opaques. L'effet de levier change : si tu trouves la caractéristique qui contrôle un comportement, tu cesses de la combattre par les prompts.

Si tu travailles sur l'alignement, le design d'évals, ou l'adaptation domaine-spécifique d'un modèle Qwen, télécharge les SAE depuis HuggingFace et commence à cartographier. Regarde les activations de caractéristiques sur ton ensemble d'éval pour trouver redondance et contamination. Pour les équipes sécurité, le chemin pilotage-inférence est maintenant utilisable avec un outillage réel. Pour la recherche, les SAE MoE à 128K de largeur sont l'artefact le plus intéressant — il n'y a pas d'autre sortie ouverte à ce ratio d'expansion sur un MoE de taille frontière.

Qwen lance Qwen-Scope : 14 suites SAE pour piloter et analyser 7 variantes Qwen

Plus de nouvelles