稀疏自編碼器：定義與含義 — AI 維基

一個經過訓練的神經網路，透過帶有稀疏性約束的瓶頸來重建模型的內部激活 — 一次只有少數特徵可以啟動。學習到的特徵通常對應於可解釋的概念（特定主題、語言模式、推理策略），使 SAE 成為解開大型語言模型內部疊加特徵的主要工具。

為什麼重要

稀疏自編碼器是機制可解釋性的顯微鏡。LLM 透過疊加將數千個特徵打包到每一層中，使個別神經元不可解釋。SAE 將這些疊加的表示分解為個別的、可解釋的特徵。Anthropic 使用 SAE 在 Claude 中識別了數百萬個特徵，包括欺騙、特定概念和安全相關行為的特徵。

深度解析

架構：SAE 接收模型的激活向量（維度 d_model，例如 4096）並將其編碼為更大的稀疏表示（例如 64K 個特徵，其中對於任何給定輸入只有約 100 個處於啟動狀態）。然後解碼回 d_model 並訓練以最小化重建誤差。隱藏層的稀疏性約束（L1 懲罰）迫使 SAE 每個輸入只使用少數特徵，確保每個特徵是具體的而非分散的。

SAE 發現了什麼

當在 LLM 激活上訓練時，SAE 發現了可解釋的特徵：一個「金門大橋」特徵會在關於該橋的文本上啟動，一個「Python 程式碼」特徵，一個「法語」特徵，一個「諂媚式同意」特徵，等等。這些特徵比個別神經元更可解釋，因為稀疏性約束將神經元以疊加方式表示的重疊概念分離開來。Anthropic 的研究發現了從具體（特定實體）到抽象（欺騙、不確定性）的各種特徵。

超越解釋的應用

SAE 特徵不僅能用於理解：將某個特徵鉗制為零可以抑制相應的行為（停用「欺騙」特徵），而放大某個特徵則會增強它。這開啟了無需重新訓練就進行精細行為控制的可能性。然而，這項技術仍處於實驗階段 — 特徵之間的交互作用很複雜，修改一個特徵可能會因為殘餘的疊加而對其他特徵產生意料之外的影響。

稀疏自編碼器

為什麼重要

深度解析

SAE 發現了什麼

超越解釋的應用

相關概念