安全

Mechanistic Interpretability（機制可解釋性）

別名：Mech Interp

在神經元/電路/特徵層面逆向工程神經網路內部發生的事情。不只是模型輸出什麼，而是它如何計算。

為什麼重要

AI 安全的核心。研究人員已經在 Transformer 內部發現了特定的電路（歸納頭等）。這是 Anthropic 的重點研究領域。

疊加現象（Superposition）：許多特徵被編碼為啟動空間中的方向。稀疏自編碼器用於解纏特徵。從特徵到電路：追蹤特定行為的資訊流。