Zubnet AI学习Wiki › 稀疏自编码器
模型

稀疏自编码器

别名:SAE
一种神经网络,通过带有稀疏约束的瓶颈层来训练重建模型的内部激活——一次只有少数特征可以激活。学到的特征通常对应于可解释的概念(特定主题、语言模式、推理策略),使SAE成为解开大型语言模型中叠加特征的主要工具。

为什么重要

稀疏自编码器是机械可解释性的显微镜。LLM通过叠加将数千个特征打包到每一层中,使单个神经元难以解释。SAE将这些叠加的表示分解为单独的、可解释的特征。Anthropic使用SAE在Claude中识别了数百万个特征,包括欺骗、特定概念和安全相关行为的特征。

深度解析

架构:SAE接收模型的激活向量(维度d_model,例如4096),将其编码为一个更大的稀疏表示(例如64K个特征,其中任何给定输入只有约100个处于活跃状态)。然后解码回d_model并训练以最小化重建误差。隐藏层上的稀疏约束(L1惩罚)迫使SAE每次输入只使用少数特征,确保每个特征是具体的而非分散的。

SAE发现了什么

在LLM激活上训练时,SAE发现了可解释的特征:一个在关于金门大桥的文本上激活的"金门大桥"特征、一个"Python代码"特征、一个"法语"特征、一个"谄媚性同意"特征等等。这些特征比单个神经元更易解释,因为稀疏约束分离了神经元通过叠加表示的重叠概念。Anthropic的研究发现了从具体(特定实体)到抽象(欺骗、不确定性)的各种特征。

超越解释的应用

SAE特征不仅可以用于理解:将一个特征固定为零可以抑制相应的行为(停用"欺骗"特征),而放大一个特征可以增强它。这开启了无需重新训练就能进行精细行为控制的可能性。然而,该技术仍处于实验阶段——特征交互是复杂的,修改一个特征可能由于残余叠加而对其他特征产生意想不到的影响。

相关概念

← 所有术语
← 稀疏注意力 端点 →