Qwen 发布 Qwen-Scope:14 套 SAE 用于引导与分析 7 个 Qwen 变体

Qwen 团队已发布 Qwen-Scope,一个开源稀疏自编码器(SAE)套件,把七个 Qwen3 模型变体的激活分解为可解释的特征。共十四组 SAE:稠密骨干从 1.7B 到 27B(Qwen3-1.7B、Qwen3-8B、Qwen3.5-2B、Qwen3.5-9B、Qwen3.5-27B)再加上 Qwen3-30B-A3B 与 Qwen3.5-35B-A3B 两个 MoE 模型。权重在 HuggingFace 上线。这是把可解释性工具按产品交付,而不是按论文附录。

训练设置采用 top-k 稀疏(k = 50 或 100),稠密骨干的字典扩展为隐藏维度的 16 倍,MoE 标准配置为 32K 宽度的 SAE,更宽的 MoE 变体则放大到 128K 宽度(64× 扩展)。Qwen3.5-27B 的 SAE 在 instruct 变体上训练;其余针对基础检查点。文档化的用例分四类:推理时无需权重更新的特征引导、评估分析(通过特征重叠检测基准测试的冗余)、以数据为中心的工作流(如毒性分类与安全数据合成),以及面向 SFT 与 RL 的训练后信号生成。这次发布把 SAE 基础设施推入"开发者工具"的语境 —— Goodfire 的 Ember 与 Anthropic 早期 SAE 工作在研究层面证明的事,Qwen 把它当作 Qwen 生态的默认工具交付。

对开放权重生态而言,这件事比再多一个模型发布更重要。Qwen 是下游微调里最主流的开放权重家族;将生产级 SAE 与该家族绑定,使特征级干预成为默认能力,而不再是一个研究项目。在推理时引导特征是不重训便能定制模型行为的最干净路径;把 SAE 特征绑定到拒答边界,则为现今 RLHF 栈中不透明的安全调优提供了一个透明的接口。杠杆位置变了:一旦你找到控制某行为的特征,就不再需要靠提示词去硬刚它。

如果你在做对齐、评估设计或某 Qwen 模型的领域适配,先把 SAE 从 HuggingFace 拉下来开始绘图。看看你的评估集上特征的激活,找出冗余与污染。对安全团队而言,推理引导路径如今有了能用的工具链。对研究而言,128K 宽度的 MoE SAE 是最有意思的产物 —— 在前沿规模 MoE 上,目前还没有另外一个开放发布达到这个扩展比。

Qwen 发布 Qwen-Scope:14 套 SAE 用于引导与分析 7 个 Qwen 变体

更多新闻