सर्किट दो लेयर्स में दो heads का उपयोग करता है। पहला head (एक पहले की लेयर में "previous token head") इस बारे में जानकारी कॉपी करता है कि वर्तमान टोकन से पहले कौन सा टोकन था। दूसरा head (एक बाद की लेयर में वास्तविक "induction head") इस जानकारी का उपयोग पैटर्न पूरा करने के लिए करता है: यदि टोकन B पहले संदर्भ में A से पहले था, और A फिर से दिखाई देता है, तो induction head B की भविष्यवाणी को बढ़ावा देता है। यह in-context learning का एक सरल लेकिन शक्तिशाली रूप है।
Olsson et al. (2022, Anthropic) ने विभिन्न आकारों के Transformers में attention पैटर्न के सावधानीपूर्वक विश्लेषण के माध्यम से induction heads की पहचान की। उन्होंने प्रशिक्षण के दौरान एक चरण परिवर्तन देखा: induction heads अचानक बनते हैं, और उनका गठन मॉडल की in-context learning करने की क्षमता में नाटकीय सुधार के साथ मेल खाता है। यह सुझाव देता है कि induction heads केवल कई सर्किटों में से एक नहीं हैं बल्कि एक मूलभूत क्षमता है जो उच्च-स्तरीय in-context learning को सक्षम करती है।
वास्तविक दुनिया की in-context learning "A B ... A → B" से अधिक जटिल है। मॉडल पैटर्न को सामान्यीकृत करना सीखते हैं: "capital of France is Paris, capital of Germany is Berlin, capital of Japan is..." के लिए अमूर्त पैटर्न को समझने की आवश्यकता है, न कि केवल कॉपी करने की। शोध सुझाव देता है कि अधिक जटिल induction-जैसे सर्किट बुनियादी induction head तंत्र पर निर्मित होते हैं, इसे अमूर्तन और सामान्यीकरण को संभालने के लिए अन्य सर्किटों के साथ संयोजित करते हैं।