归纳头：定义与含义 — AI 维基

在Transformer中发现的一种特定的双注意力头电路，通过模式匹配实现上下文学习。如果模型之前在上下文中看到过模式"A B"，现在又看到"A"，归纳头就会预测"B"将紧随其后。这种简单的机制被认为是LLM如何从上下文中的示例中学习的基本构建块。

为什么重要

归纳头是机械可解释性中理解最透彻的电路——一个具体的例子，展示了Transformer如何从学习到的权重中实现有用的算法。它们解释了为什么少样本提示有效：当你给出示例时，归纳头检测模式并应用它。理解归纳头为理解更复杂的学习行为奠定了基础。

深度解析

该电路跨两层使用两个头。第一个头（较早层中的"前一token头"）复制关于当前token之前是哪个token的信息。第二个头（较后层中的实际"归纳头"）使用这个信息来完成模式：如果token B之前在上下文中被A所先导，且A再次出现，归纳头就会增强对B的预测。这是一种简单但强大的上下文学习形式。

发现与验证

Olsson et al.（2022，Anthropic）通过仔细分析不同规模Transformer的注意力模式识别了归纳头。他们观察到训练过程中的相变：归纳头突然形成，其形成恰好与模型上下文学习能力的戏剧性提升同时发生。这表明归纳头不仅仅是众多电路中的一个，而是一种基础能力，使更高层次的上下文学习成为可能。

超越简单模式

现实世界的上下文学习比"A B ... A → B"更复杂。模型学习泛化模式："法国的首都是巴黎，德国的首都是柏林，日本的首都是..."这需要理解抽象模式，而不仅仅是复制。研究表明，更复杂的类归纳电路建立在基本归纳头机制之上，将其与其他电路组合以处理抽象和泛化。

归纳头

为什么重要

深度解析

发现与验证

超越简单模式

相关概念