叠加态：定义与含义 — AI 维基

神经网络编码的特征（概念、模式）数量远多于其神经元数量的现象，通过将特征表示为激活空间中的方向而非将单个神经元分配给单个特征来实现。一个神经元同时参与编码数十种特征，每个特征分布在许多神经元上。

为什么重要

叠加态是神经网络难以解释以及机械可解释性具有挑战性的原因。如果每个神经元代表一个概念（如“狗的概念”），解释将很简单。相反，概念以重叠模式分散在神经元上。理解叠加态是理解神经网络如何压缩信息以及它们为何有时行为出人意料的关键。

深度解析

核心洞察：一个每层有4096个神经元的模型可以表示远超4096个特征，因为它使用了完整的4096维空间。每个特征是这个空间中的一个方向（一个向量），只要特征之间不太相似，它们就可以重叠。这在数学上类似于压缩感知——如果信号是稀疏的（任何时候只有少数是活跃的），你可以存储比维度更多的信号。

为什么模型这样做

模型学习叠加态是因为世界的特征比任何实际模型的维度都多。一个模型需要表示数千个概念（颜色、情感、语法规则、事实知识、代码模式），但每层可能只有4096个维度。叠加态让它将所有这些特征打包到可用空间中，代价是当多个重叠特征同时激活时会产生一些干扰。

对安全性的影响

叠加态对AI安全有直接影响。如果“欺骗”特征与其他良性特征叠加在一起，就很难检测和移除。稀疏自编码器（用于机械可解释性）试图通过找到单个特征方向来解开叠加态，但大型模型中的特征数量可能非常巨大——Anthropic在Claude中识别出了数百万个可解释的特征。理解和控制叠加态是使AI系统可靠安全的核心挑战。

叠加态

为什么重要

深度解析

为什么模型这样做

对安全性的影响

相关概念