在神经元/电路/特征层面逆向工程神经网络内部的运作机制。不仅关注模型输出了什么,更关注它是如何计算的。
AI安全的核心。研究人员已经在Transformer内部发现了特定的电路(如归纳头等)。这是Anthropic的重点研究领域。
叠加(Superposition):许多特征以激活空间中的方向编码。稀疏自编码器用于解耦特征。从特征到电路:追踪特定行为的信息流动路径。