歸納頭：定義與含義 — AI 維基

在 Transformer 中發現的一個特定的雙注意力頭電路，透過模式匹配實現上下文內學習。如果模型在上下文中較早看到了模式「A B」，現在又看到了「A」，歸納頭就會預測「B」將跟隨。這個簡單的機制被認為是 LLM 如何從上下文中的範例學習的基本構建模塊。

為什麼重要

歸納頭是機制可解釋性中理解最透徹的電路 — 一個具體的例子，展示 Transformer 如何從學習到的權重中實現有用的演算法。它們解釋了為什麼少樣本提示有效：當你給出範例時，歸納頭會檢測模式並應用它。理解歸納頭為理解更複雜的學習行為提供了基礎。

深度解析

該電路使用橫跨兩層的兩個頭。第一個頭（早期層中的「前一個 token 頭」）複製有關哪個 token 在當前 token 之前的資訊。第二個頭（後期層中的實際「歸納頭」）使用這個資訊來完成模式：如果 token B 之前在上下文中由 A 前導，而 A 再次出現，歸納頭就會提升對 B 的預測。這是一種簡單但強大的上下文內學習形式。

發現與驗證

Olsson 等人（2022 年，Anthropic）透過仔細分析各種大小 Transformer 中的注意力模式來識別歸納頭。他們觀察到訓練過程中的一個相變：歸納頭突然形成，其形成與模型進行上下文內學習的能力劇烈提升同時發生。這暗示歸納頭不只是眾多電路之一，而是一種基礎能力，使更高層次的上下文內學習成為可能。

超越簡單模式

真實世界的上下文內學習比「A B ... A → B」更複雜。模型學習泛化模式：「法國的首都是巴黎，德國的首都是柏林，日本的首都是...」需要理解抽象模式，而不只是複製。研究暗示更複雜的類歸納電路建立在基本歸納頭機制之上，將其與其他電路組合以處理抽象和泛化。

歸納頭

為什麼重要

深度解析

發現與驗證

超越簡單模式

相關概念