Le circuit utilise deux têtes sur deux couches. La première tête (une "tête de token précédent" dans une couche antérieure) copie l'information sur le token qui précédait le token actuel. La seconde tête (la véritable "tête d'induction" dans une couche ultérieure) utilise cette information pour compléter des patterns : si le token B était précédé par A plus tôt dans le contexte, et que A apparaît à nouveau, la tête d'induction renforce la prédiction de B. C'est une forme simple mais puissante d'apprentissage en contexte.
Olsson et al. (2022, Anthropic) ont identifié les têtes d'induction par une analyse minutieuse des patterns d'attention dans des Transformers de tailles variées. Ils ont observé un changement de phase pendant l'entraînement : les têtes d'induction se forment soudainement, et leur formation coïncide avec une amélioration dramatique de la capacité du modèle à faire de l'apprentissage en contexte. Cela suggère que les têtes d'induction ne sont pas juste un circuit parmi d'autres mais une capacité fondamentale qui permet l'apprentissage en contexte de niveau supérieur.
L'apprentissage en contexte dans le monde réel est plus complexe que "A B ... A → B". Les modèles apprennent à généraliser les patterns : "capitale de la France est Paris, capitale de l'Allemagne est Berlin, capitale du Japon est..." nécessite de comprendre le pattern abstrait, pas juste de copier. La recherche suggère que des circuits de type induction plus complexes se construisent sur le mécanisme de base de la tête d'induction, le composant avec d'autres circuits pour gérer l'abstraction et la généralisation.