归纳头是机械可解释性中理解最透彻的电路——一个具体的例子,展示了Transformer如何从学习到的权重中实现有用的算法。它们解释了为什么少样本提示有效:当你给出示例时,归纳头检测模式并应用它。理解归纳头为理解更复杂的学习行为奠定了基础。
该电路跨两层使用两个头。第一个头(较早层中的"前一token头")复制关于当前token之前是哪个token的信息。第二个头(较后层中的实际"归纳头")使用这个信息来完成模式:如果token B之前在上下文中被A所先导,且A再次出现,归纳头就会增强对B的预测。这是一种简单但强大的上下文学习形式。
Olsson et al.(2022,Anthropic)通过仔细分析不同规模Transformer的注意力模式识别了归纳头。他们观察到训练过程中的相变:归纳头突然形成,其形成恰好与模型上下文学习能力的戏剧性提升同时发生。这表明归纳头不仅仅是众多电路中的一个,而是一种基础能力,使更高层次的上下文学习成为可能。
现实世界的上下文学习比"A B ... A → B"更复杂。模型学习泛化模式:"法国的首都是巴黎,德国的首都是柏林,日本的首都是..."这需要理解抽象模式,而不仅仅是复制。研究表明,更复杂的类归纳电路建立在基本归纳头机制之上,将其与其他电路组合以处理抽象和泛化。