Zubnet AIसीखेंWiki › Positional Encoding
मूल तत्व

Positional Encoding

इसे भी कहा जाता है: Positional Embedding, RoPE, ALiBi
एक तंत्र जो Transformer मॉडल को अनुक्रम में टोकन के क्रम के बारे में बताता है। RNNs के विपरीत जो टोकन को अनुक्रमिक रूप से प्रोसेस करते हैं (इसलिए स्थिति निहित है), Transformers सभी टोकन को समानांतर में प्रोसेस करते हैं और उनमें क्रम की कोई अंतर्निहित भावना नहीं होती। Positional encodings स्थिति की जानकारी इंजेक्ट करते हैं ताकि मॉडल जान सके कि "कुत्ता आदमी को काटता है" और "आदमी कुत्ते को काटता है" अलग हैं।

यह क्यों मायने रखता है

स्थितीय जानकारी के बिना, एक Transformer एक वाक्य को शब्दों के बैग के रूप में मानता है — शब्द क्रम खो जाता है। Positional encoding का चुनाव यह भी निर्धारित करता है कि एक मॉडल प्रशिक्षण के दौरान देखे गए अनुक्रमों से लंबे अनुक्रमों को कितनी अच्छी तरह संभालता है, यही कारण है कि RoPE और ALiBi जैसी तकनीकें लंबे-संदर्भ मॉडल के लिए महत्वपूर्ण हैं।

गहन अध्ययन

मूल Transformer (2017) ने प्रत्येक स्थिति और आयाम के लिए विभिन्न आवृत्तियों पर स्थिर sinusoidal फ़ंक्शन का उपयोग किया। इनमें एक अच्छा सैद्धांतिक गुण था: मॉडल सापेक्ष स्थितियों पर ध्यान देना सीख सकता था क्योंकि sinusoidal पैटर्न सुसंगत ऑफ़सेट बनाते हैं। लेकिन सीखे गए positional embeddings (प्रत्येक स्थिति के लिए एक प्रशिक्षणीय वेक्टर) जल्दी ही डिफ़ॉल्ट बन गए क्योंकि वे थोड़ा बेहतर प्रदर्शन करते थे, हालाँकि अधिकतम प्रशिक्षण लंबाई तक सीमित थे।

RoPE: आधुनिक मानक

Rotary Position Embeddings (RoPE, Su et al., 2021) attention तंत्र में query और key वेक्टरों को घुमाकर स्थिति को एन्कोड करता है। घूर्णन का कोण स्थिति पर निर्भर करता है, इसलिए दो टोकन के बीच डॉट प्रोडक्ट स्वाभाविक रूप से उनकी सापेक्ष दूरी को एन्कोड करता है। RoPE का उपयोग LLaMA, Mistral, Qwen, और अधिकांश आधुनिक LLMs द्वारा किया जाता है। इसका प्रमुख लाभ: यह लंबाई एक्सट्रैपोलेशन सक्षम करता है — मॉडल प्रशिक्षण के दौरान देखे गए अनुक्रमों से कुछ लंबे अनुक्रमों को संभाल सकते हैं, विशेष रूप से YaRN या NTK-aware स्केलिंग जैसी तकनीकों के साथ संयुक्त होने पर।

ALiBi और उससे आगे

ALiBi (Attention with Linear Biases) एक सरल दृष्टिकोण अपनाता है: embeddings को संशोधित करने के बजाय, यह टोकन के बीच दूरी के आधार पर attention स्कोर में एक रैखिक दंड जोड़ता है। दूर के टोकन को अधिक दंड मिलता है। इसके लिए कोई सीखे गए पैरामीटर की आवश्यकता नहीं है और यह लंबे अनुक्रमों में अच्छी तरह एक्सट्रैपोलेट करता है। कुछ आर्किटेक्चर दृष्टिकोणों को जोड़ते हैं या सापेक्ष स्थिति biases का उपयोग करते हैं। रुझान ऐसे तरीकों की ओर है जो प्रशिक्षण लंबाई से परे सामान्यीकृत करते हैं, क्योंकि context windows बढ़ते रहते हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← Pooling Precision & Recall →