अटेंशन: परिभाषा और अर्थ — AI विकी

Transformers में मुख्य तंत्र जो एक मॉडल को इनपुट के किन भागों के बीच सबसे अधिक संबंधित होने का निर्धारण करने देता है। पुराने मॉडलों के तरह टेक्स्ट को बाएं से दाएं पढ़े बिना, ध्यान हर शब्द के "देखने" के लिए हर अन्य शब्द के साथ एक साथ बरतता है जिससे संदर्भ को समझा जा सके।

यह क्यों मायने रखता है

एटेंशन यह है कि आधुनिक LLMs समझते हैं कि "बैंक" "नदी के किनारा" विरुद्ध "बैंक खाता" में अलग अर्थ रखता है। यह भी वही कारण है कि लंबे कंटेक्स्ट विंडो अधिक खर्च करते हैं — एटेंशन अनुक्रम लंबाई के साथ द्विघाती रूप से बढ़ता है।

गहन अध्ययन

अपने मूल में, ध्यान एक वजनित योग की गणना करता है। एक क्रम में प्रत्येक टोकन के लिए, यह तंत्र पूछता है: "अब मुझे अन्य सभी टोकन कितना महत्वपूर्ण है?" यह तीन सीखे गए प्रक्षेपणों के माध्यम से करता है — क्वेरी, की, और वैल्यू (जो आप हर पेपर में देखते हैं Q, K, V)। एक टोकन के लिए क्वेरी सभी टोकन के की के खिलाफ डॉट-प्रोडक्ट करके एक स्कोर के सेट उत्पन्न करता है, उन स्कोर को सॉफ्टमैक्स में वजनों में बदल दिया जाता है, और वजन वैल्यू को मिश्रित करके एक संदर्भ-सचेत प्रतिनिधित्व में बदल दिया जाता है। पूरा संचालन अंतरणीय होता है, इसलिए मॉडल प्रशिक्षण के दौरान कौन से संबंध महत्वपूर्ण हैं उसे सीखता है। मल्टी-हेड ध्यान कई ऐसे संचालनों को समानांतर में चलाता है अलग-अलग प्रक्षेपणों के साथ, जिससे मॉडल अलग-अलग प्रकार के संबंधों को एक साथ ध्यान दे सकता है — एक हेड सिंटैक्स का पालन कर सकता है जबकि दूसरा कोरिफरेंस का।

समानांतरता की ब्रेकथ्रू

स्व-ध्यान की व्यावहारिक ब्रेकथ्रू समानांतरता थी। एलएसटीएम जैसे आवर्ती नेटवर्क एक के बाद एक टोकन को प्रोसेस करते थे, जिसका मतलब था कि प्रशिक्षण अनिवार्य रूप से क्रमबद्ध और धीमा था। ध्यान पूरे क्रम को एक ही बार में प्रोसेस करता है, जो प्रशिक्षण को एक बड़े मैट्रिक्स गुणन में बदल देता है जिसे जीपीयू खाते हैं। इसी कारण ट्रांसफॉर्मर्स बिलियनों पैरामीटर और ट्रिलियनों प्रशिक्षण टोकन तक पैमाने पर बढ़ सके — हार्डवेयर इस प्रकार के कार्यों के लिए पहले से ही बनाया गया था। आज आप द्वारा इस्तेमाल किए जाने वाले प्रत्येक महत्वपूर्ण एलईएम, जैसे GPT-4 से लेकर क्लॉउड, लम्बा 3 और मिस्ट्रल तक, इस समानांतरता के लाभ के कारण मौजूद हैं।

द्विघात समस्या

कमरे में हाथी द्विघाती पैमाना है। मानक ध्यान प्रत्येक टोकन के जोड़े के लिए एक स्कोर की गणना करता है, इसलिए अपने संदर्भ विंडो को दोगुना करने से गणना और मेमोरी चार गुना बढ़ जाती है। 4K संदर्भ मॉडल प्रति परत प्रति हेड 16 मिलियन ध्यान स्कोर इस्तेमाल करता है; 128K तक पहुंचे तो आप 16 अरब पर पहुंच जाते हैं। इसी कारण संदर्भ विंडो को बढ़ाना इतना बड़ा इंजीनियरिंग प्रयास रहा है। फ्लैश ध्यान (Tri Dao द्वारा) याद रखने के लिए मेमोरी तरफ ध्यान केंद्रित करके गणना के पुनर्गठन के माध्यम से जीपीयू HBM में पूर्ण ध्यान मैट्रिक्स के सामने आने के बिना लंबे संदर्भ को व्यावहारिक बनाने में मदद करता है। ग्रुप्ड-क्वेरी ध्यान (GQA), जो लम्बा 2 और नए मॉडल में इस्तेमाल किया जाता है, क्वेरी हेड के बीच की-वैल्यू हेड को साझा करता है ताकि जनरेशन के दौरान बने रहे KV कैश को कम कर सके।

क्रॉस-ध्यान एक अलग रूप में समझने योग्य है। एन्कोडर-डिकोडर मॉडल और स्थिति जनरेशन (जैसे टेक्स्ट-टू-इमेज) में, क्वेरी एक क्रम से आते हैं जबकि की और वैल्यू दूसरे क्रम से आते हैं। यही वजह है कि स्टेबल डिफ्यूजन अपने टेक्स्ट प्रॉम्प्ट पर निर्भर करता है — इमेज तरफ क्वेरी टेक्स्ट एन्कोडर आउटपुट के ध्यान देते हैं। यह भी वजह है कि मूल ट्रांसफॉर्मर अनुवाद के लिए डिकोडर एन्कोडर आउटपुट के ध्यान देता था ताकि अगले जनरेशन के बारे में निर्णय लिया जा सके।

ध्यान क्या नहीं है

एक आम भ्रम यह है कि ध्यान "समझ" है। यह नहीं है। ध्यान एक रूटिंग तंत्र है — यह जानकारी कहां बह

अटेंशन

यह क्यों मायने रखता है

गहन अध्ययन

समानांतरता की ब्रेकथ्रू

द्विघात समस्या

ध्यान क्या नहीं है

संबंधित अवधारणाएँ