神經網路通過將特徵表示為啟動空間中的方向而非為每個特徵指定單一神經元,來編碼遠多於神經元數量的特徵(概念、模式)的現象。單一神經元同時參與編碼數十個特徵,每個特徵則分布在許多神經元中。
疊加是神經網路難以解讀的原因,也是機制可解釋性具有挑戰性的原因。如果每個神經元代表一個概念(比如「狗的概念」),解讀將很簡單。然而,概念以重疊的模式分散在神經元中。理解疊加是理解神經網路如何壓縮資訊以及它們為何有時行為異常的關鍵。
關鍵洞察:每層擁有 4096 個神經元的模型可以通過利用完整的 4096 維空間來表示遠超 4096 個特徵。每個特徵是該空間中的一個方向(一個向量),特徵之間只要不太相似就可以重疊。這在數學上類似於壓縮感知 — 如果信號是稀疏的(任何時候只有少數信號活躍),你可以在比維度更多的信號中進行儲存。
模型學習疊加是因為世界有比任何實際模型維度更多的特徵。模型需要表示數千個概念(顏色、情感、語法規則、事實知識、程式碼模式),但每層可能只有 4096 個維度。疊加讓它將所有這些特徵打包到可用空間中,代價是當多個重疊特徵同時啟動時產生一些干擾。
疊加對 AI 安全有直接影響。如果「欺騙」特徵與其他良性特徵疊加在一起,就很難被偵測和移除。稀疏自編碼器(用於機制可解釋性)嘗試通過找到個別特徵方向來解開疊加,但大型模型中的特徵數量可能非常龐大 — Anthropic 在 Claude 中辨識出了數百萬個可解讀的特徵。理解和控制疊加是使 AI 系統可靠安全的核心挑戰。