Zubnet AI學習Wiki › Mechanistic Interpretability
安全

Mechanistic Interpretability(機制可解釋性)

別名:Mech Interp

在神經元/電路/特徵層面逆向工程神經網路內部發生的事情。不只是模型輸出什麼,而是它如何計算。

為什麼重要

AI 安全的核心。研究人員已經在 Transformer 內部發現了特定的電路(歸納頭等)。這是 Anthropic 的重點研究領域。

深度解析

疊加現象(Superposition):許多特徵被編碼為啟動空間中的方向。稀疏自編碼器用於解纏特徵。從特徵到電路:追蹤特定行為的資訊流。

相關概念

← 所有術語