Zubnet AIसीखेंWiki › Self-Attention
मूल तत्व

Self-Attention

इसे भी कहा जाता है: Scaled Dot-Product Attention
एक attention तंत्र जहां एक अनुक्रम स्वयं पर ध्यान देता है — हर टोकन अपनी प्रासंगिकता की गणना उसी अनुक्रम में हर दूसरे टोकन के साथ करता है। Queries, keys, और values सभी एक ही इनपुट से आते हैं। यह प्रत्येक टोकन को सभी अन्य टोकन से, प्रासंगिकता के आधार पर भारित, सूचना एकत्र करने देता है। Self-attention हर Transformer लेयर में मुख्य ऑपरेशन है।

यह क्यों मायने रखता है

Self-attention वह है जो Transformers को काम करता है। इसने RNNs की क्रमिक प्रोसेसिंग को सभी स्थितियों के बीच समानांतर, सीधे कनेक्शनों से बदल दिया। "river bank" में "bank" शब्द अपने अर्थ को हल करने के लिए "river" पर ध्यान देता है, चाहे वे कितने भी दूर हों। किन्हीं भी दो स्थितियों को सीधे जोड़ने की यह क्षमता इसलिए है कि Transformers लंबी दूरी की निर्भरताओं को इतनी अच्छी तरह संभालते हैं।

गहन अध्ययन

गणना: इनपुट X के लिए, Q = X·W_Q, K = X·W_K, V = X·W_V की गणना करें। फिर: Attention(Q,K,V) = softmax(Q·K^T / √d_k) · V। softmax(Q·K^T) एक N×N attention मैट्रिक्स उत्पन्न करता है जहां प्रविष्टि (i,j) दर्शाती है कि टोकन i टोकन j पर कितना ध्यान देता है। √d_k स्केलिंग डॉट प्रोडक्ट को उच्च आयामों में बहुत बड़ा होने से रोकता है, जो softmax को लगभग-शून्य ग्रेडिएंट वाले संतृप्त क्षेत्रों में धकेल देगा।

Causal बनाम Bidirectional

Decoder-only LLMs (GPT, Claude, Llama) में, self-attention causal होता है: प्रत्येक टोकन केवल पिछले टोकन (स्वयं सहित) पर ध्यान दे सकता है। यह एक causal mask द्वारा लागू किया जाता है जो softmax से पहले भविष्य की स्थितियों को −∞ पर सेट करता है। Encoder मॉडल (BERT) में, self-attention bidirectional होता है: हर टोकन हर दूसरे टोकन पर ध्यान देता है। Causal बाधा वह है जो autoregressive जनरेशन को संभव बनाती है — मॉडल भविष्य के टोकन को "देख" नहीं सकता।

द्विघात लागत

Self-attention एक N×N attention मैट्रिक्स की गणना करता है, जिससे यह समय और मेमोरी दोनों में O(N²) है। 128K टोकन के संदर्भ के लिए, यह प्रति लेयर प्रति head ~16 बिलियन प्रविष्टियां हैं। यह द्विघात स्केलिंग वह मौलिक सीमा है जो sparse attention, linear attention, Flash Attention (जो मेमोरी कम करता है लेकिन compute नहीं), और SSMs (जो N×N मैट्रिक्स से पूरी तरह बचते हैं) में अनुसंधान को प्रेरित करती है। लंबे संदर्भ मॉडलिंग का हर दृष्टिकोण अंततः इस द्विघात लागत को प्रबंधित करने के बारे में है।

संबंधित अवधारणाएँ

← सभी शब्द
← Scale AI Semantic Search →