稀疏自编码器：定义与含义 — AI 维基

一种神经网络，通过带有稀疏约束的瓶颈层来训练重建模型的内部激活——一次只有少数特征可以激活。学到的特征通常对应于可解释的概念（特定主题、语言模式、推理策略），使SAE成为解开大型语言模型中叠加特征的主要工具。

为什么重要

稀疏自编码器是机械可解释性的显微镜。LLM通过叠加将数千个特征打包到每一层中，使单个神经元难以解释。SAE将这些叠加的表示分解为单独的、可解释的特征。Anthropic使用SAE在Claude中识别了数百万个特征，包括欺骗、特定概念和安全相关行为的特征。

深度解析

架构：SAE接收模型的激活向量（维度d_model，例如4096），将其编码为一个更大的稀疏表示（例如64K个特征，其中任何给定输入只有约100个处于活跃状态）。然后解码回d_model并训练以最小化重建误差。隐藏层上的稀疏约束（L1惩罚）迫使SAE每次输入只使用少数特征，确保每个特征是具体的而非分散的。

SAE发现了什么

在LLM激活上训练时，SAE发现了可解释的特征：一个在关于金门大桥的文本上激活的"金门大桥"特征、一个"Python代码"特征、一个"法语"特征、一个"谄媚性同意"特征等等。这些特征比单个神经元更易解释，因为稀疏约束分离了神经元通过叠加表示的重叠概念。Anthropic的研究发现了从具体（特定实体）到抽象（欺骗、不确定性）的各种特征。

超越解释的应用

SAE特征不仅可以用于理解：将一个特征固定为零可以抑制相应的行为（停用"欺骗"特征），而放大一个特征可以增强它。这开启了无需重新训练就能进行精细行为控制的可能性。然而，该技术仍处于实验阶段——特征交互是复杂的，修改一个特征可能由于残余叠加而对其他特征产生意想不到的影响。

稀疏自编码器

为什么重要

深度解析

SAE发现了什么

超越解释的应用

相关概念