Zubnet AI学习Wiki › 机制可解释性
安全

机制可解释性

别名:Mech Interp

在神经元/电路/特征层面逆向工程神经网络内部的运作机制。不仅关注模型输出了什么,更关注它是如何计算的。

为什么重要

AI安全的核心。研究人员已经在Transformer内部发现了特定的电路(如归纳头等)。这是Anthropic的重点研究领域。

深度解析

叠加(Superposition):许多特征以激活空间中的方向编码。稀疏自编码器用于解耦特征。从特征到电路:追踪特定行为的信息流动路径。

相关概念

← 所有术语
← 月之暗面 机器学习 →