安全

机制可解释性

别名：Mech Interp

在神经元/电路/特征层面逆向工程神经网络内部的运作机制。不仅关注模型输出了什么，更关注它是如何计算的。

为什么重要

AI安全的核心。研究人员已经在Transformer内部发现了特定的电路（如归纳头等）。这是Anthropic的重点研究领域。

深度解析

叠加（Superposition）：许多特征以激活空间中的方向编码。稀疏自编码器用于解耦特征。从特征到电路：追踪特定行为的信息流动路径。

相关概念

← 所有术语

← 月之暗面机器学习 →