Induction Head: परिभाषा और अर्थ — AI विकी

Transformers में खोजा गया एक विशिष्ट दो-attention-head सर्किट जो पैटर्न मिलान द्वारा in-context learning को लागू करता है। यदि मॉडल ने संदर्भ में पहले "A B" पैटर्न देखा है और अब फिर से "A" देखता है, तो induction head भविष्यवाणी करता है कि "B" आगे आएगा। यह सरल तंत्र माना जाता है कि LLMs अपने संदर्भ में उदाहरणों से कैसे सीखते हैं इसका एक मौलिक निर्माण खंड है।

यह क्यों मायने रखता है

Induction heads mechanistic interpretability में सबसे अच्छी तरह से समझा गया सर्किट है — इसका एक ठोस उदाहरण कि Transformers सीखे गए weights से एक उपयोगी एल्गोरिदम कैसे लागू करते हैं। वे बताते हैं कि few-shot prompting क्यों काम करता है: जब आप उदाहरण देते हैं, तो induction heads पैटर्न का पता लगाते हैं और उसे लागू करते हैं। Induction heads को समझना अधिक जटिल सीखे गए व्यवहारों को समझने के लिए एक आधार प्रदान करता है।

गहन अध्ययन

सर्किट दो लेयर्स में दो heads का उपयोग करता है। पहला head (एक पहले की लेयर में "previous token head") इस बारे में जानकारी कॉपी करता है कि वर्तमान टोकन से पहले कौन सा टोकन था। दूसरा head (एक बाद की लेयर में वास्तविक "induction head") इस जानकारी का उपयोग पैटर्न पूरा करने के लिए करता है: यदि टोकन B पहले संदर्भ में A से पहले था, और A फिर से दिखाई देता है, तो induction head B की भविष्यवाणी को बढ़ावा देता है। यह in-context learning का एक सरल लेकिन शक्तिशाली रूप है।

खोज और सत्यापन

Olsson et al. (2022, Anthropic) ने विभिन्न आकारों के Transformers में attention पैटर्न के सावधानीपूर्वक विश्लेषण के माध्यम से induction heads की पहचान की। उन्होंने प्रशिक्षण के दौरान एक चरण परिवर्तन देखा: induction heads अचानक बनते हैं, और उनका गठन मॉडल की in-context learning करने की क्षमता में नाटकीय सुधार के साथ मेल खाता है। यह सुझाव देता है कि induction heads केवल कई सर्किटों में से एक नहीं हैं बल्कि एक मूलभूत क्षमता है जो उच्च-स्तरीय in-context learning को सक्षम करती है।

सरल पैटर्न से परे

वास्तविक दुनिया की in-context learning "A B ... A → B" से अधिक जटिल है। मॉडल पैटर्न को सामान्यीकृत करना सीखते हैं: "capital of France is Paris, capital of Germany is Berlin, capital of Japan is..." के लिए अमूर्त पैटर्न को समझने की आवश्यकता है, न कि केवल कॉपी करने की। शोध सुझाव देता है कि अधिक जटिल induction-जैसे सर्किट बुनियादी induction head तंत्र पर निर्मित होते हैं, इसे अमूर्तन और सामान्यीकरण को संभालने के लिए अन्य सर्किटों के साथ संयोजित करते हैं।

Induction Head

यह क्यों मायने रखता है

गहन अध्ययन

खोज और सत्यापन

सरल पैटर्न से परे

संबंधित अवधारणाएँ