Qwen 發布 Qwen-Scope:14 套 SAE 用於引導與分析 7 個 Qwen 變體

Qwen 團隊已發布 Qwen-Scope,一個開源稀疏自編碼器(SAE)套件,把七個 Qwen3 模型變體的激活分解為可解釋的特徵。共十四組 SAE:稠密骨幹從 1.7B 到 27B(Qwen3-1.7B、Qwen3-8B、Qwen3.5-2B、Qwen3.5-9B、Qwen3.5-27B)再加上 Qwen3-30B-A3B 與 Qwen3.5-35B-A3B 兩個 MoE 模型。權重在 HuggingFace 上線。這是把可解釋性工具按產品交付,而不是按論文附錄。

訓練設置採用 top-k 稀疏(k = 50 或 100),稠密骨幹的字典擴展為隱藏維度的 16 倍,MoE 標準配置為 32K 寬度的 SAE,更寬的 MoE 變體則放大到 128K 寬度(64× 擴展)。Qwen3.5-27B 的 SAE 在 instruct 變體上訓練;其餘針對基礎檢查點。文件化的使用情境分四類:推論時無需權重更新的特徵引導、評估分析(透過特徵重疊偵測基準測試的冗餘)、以資料為中心的工作流(如毒性分類與安全資料合成),以及面向 SFT 與 RL 的訓練後訊號生成。這次發布把 SAE 基礎設施推入「開發者工具」的語境 —— Goodfire 的 Ember 與 Anthropic 早期 SAE 工作在研究層面證明的事,Qwen 把它當作 Qwen 生態的預設工具交付。

對開放權重生態而言,這件事比再多一個模型發布更重要。Qwen 是下游微調裡最主流的開放權重家族;將生產級 SAE 與該家族綁定,使特徵級干預成為預設能力,而不再是一個研究專案。在推論時引導特徵是不重訓便能客製模型行為的最乾淨路徑;把 SAE 特徵綁定到拒答邊界,則為現今 RLHF 棧中不透明的安全調校提供了一個透明的介面。槓桿位置變了:一旦你找到控制某行為的特徵,就不再需要靠提示詞去硬剛它。

如果你在做對齊、評估設計或某 Qwen 模型的領域適配,先把 SAE 從 HuggingFace 拉下來開始繪圖。看看你的評估集上特徵的激活,找出冗餘與污染。對安全團隊而言,推論引導路徑如今有了能用的工具鏈。對研究而言,128K 寬度的 MoE SAE 是最有意思的產物 —— 在前沿規模 MoE 上,目前還沒有另外一個開放發布達到這個擴展比。

Qwen 發布 Qwen-Scope:14 套 SAE 用於引導與分析 7 個 Qwen 變體

更多新聞