Qwen lança Qwen-Scope: 14 suítes SAE para guiar e analisar 7 variantes Qwen

A equipe Qwen lançou Qwen-Scope, uma suíte open-source de autoencoders esparsos (SAE) que decompõe ativações de sete variantes de modelos Qwen3 em características interpretáveis. Quatorze grupos SAE no total: backbones densos de 1.7B a 27B (Qwen3-1.7B, Qwen3-8B, Qwen3.5-2B, Qwen3.5-9B, Qwen3.5-27B) mais os modelos MoE Qwen3-30B-A3B e Qwen3.5-35B-A3B. Pesos despachados no HuggingFace. É ferramental de interpretabilidade lançado como produto, não como apêndice de paper.

O setup de treino usa esparsidade top-k (k = 50 ou 100) com expansão de dicionário a 16× do tamanho oculto para backbones densos e SAEs de 32K de largura para configurações MoE padrão, escalando para 128K de largura (expansão 64×) nas variantes MoE mais largas. Os SAEs do Qwen3.5-27B foram treinados na variante instruct; o resto mira checkpoints base. Casos de uso documentados cobrem quatro buckets: direção de características em tempo de inferência sem atualizar pesos, análise de avaliação (detectando redundância de benchmark via sobreposição de características), workflows centrados em dados como classificação de toxicidade e síntese de dados de segurança, e geração de sinal pós-treino para SFT e RL. O lançamento traz infraestrutura SAE para um enquadramento ferramenta-desenvolvedor — o que o Ember da Goodfire e o trabalho SAE anterior da Anthropic provaram como pesquisa, a Qwen entrega como ferramental padrão para o ecossistema Qwen.

Para o ecossistema de pesos abertos isso importa mais que outro lançamento de modelo. Qwen é a família de pesos abertos dominante para fine-tuning downstream; empacotar SAEs de qualidade produção com a família faz da intervenção a nível de característica uma capacidade padrão em vez de um projeto de pesquisa. Direcionar características em inferência é o caminho mais limpo para customizar comportamento sem retreinar, e amarrar características SAE a fronteiras de recusa dá uma superfície transparente para tuning de segurança que stacks RLHF atuais tornam opacos. A alavancagem muda: se você consegue achar a característica que controla um comportamento, para de brigar com ela via prompts.

Se você trabalha com alinhamento, design de evals, ou adaptação domínio-específica de um modelo Qwen, baixe os SAEs do HuggingFace e comece a mapear. Olhe ativações de características no seu set de eval para achar redundância e contaminação. Para times de segurança, o caminho de direção-inferência agora é usável com um toolchain real. Para pesquisa, os SAEs MoE a 128K de largura são o artefato mais interessante — não há outro lançamento aberto nessa razão de expansão num MoE de escala fronteira.

Qwen lança Qwen-Scope: 14 suítes SAE para guiar e analisar 7 variantes Qwen

Mais notícias