在神經元/電路/特徵層面逆向工程神經網路內部發生的事情。不只是模型輸出什麼,而是它如何計算。
疊加現象(Superposition):許多特徵被編碼為啟動空間中的方向。稀疏自編碼器用於解纏特徵。從特徵到電路:追蹤特定行為的資訊流。