मूल Transformer (2017) ने प्रत्येक स्थिति और आयाम के लिए विभिन्न आवृत्तियों पर स्थिर sinusoidal फ़ंक्शन का उपयोग किया। इनमें एक अच्छा सैद्धांतिक गुण था: मॉडल सापेक्ष स्थितियों पर ध्यान देना सीख सकता था क्योंकि sinusoidal पैटर्न सुसंगत ऑफ़सेट बनाते हैं। लेकिन सीखे गए positional embeddings (प्रत्येक स्थिति के लिए एक प्रशिक्षणीय वेक्टर) जल्दी ही डिफ़ॉल्ट बन गए क्योंकि वे थोड़ा बेहतर प्रदर्शन करते थे, हालाँकि अधिकतम प्रशिक्षण लंबाई तक सीमित थे।
Rotary Position Embeddings (RoPE, Su et al., 2021) attention तंत्र में query और key वेक्टरों को घुमाकर स्थिति को एन्कोड करता है। घूर्णन का कोण स्थिति पर निर्भर करता है, इसलिए दो टोकन के बीच डॉट प्रोडक्ट स्वाभाविक रूप से उनकी सापेक्ष दूरी को एन्कोड करता है। RoPE का उपयोग LLaMA, Mistral, Qwen, और अधिकांश आधुनिक LLMs द्वारा किया जाता है। इसका प्रमुख लाभ: यह लंबाई एक्सट्रैपोलेशन सक्षम करता है — मॉडल प्रशिक्षण के दौरान देखे गए अनुक्रमों से कुछ लंबे अनुक्रमों को संभाल सकते हैं, विशेष रूप से YaRN या NTK-aware स्केलिंग जैसी तकनीकों के साथ संयुक्त होने पर।
ALiBi (Attention with Linear Biases) एक सरल दृष्टिकोण अपनाता है: embeddings को संशोधित करने के बजाय, यह टोकन के बीच दूरी के आधार पर attention स्कोर में एक रैखिक दंड जोड़ता है। दूर के टोकन को अधिक दंड मिलता है। इसके लिए कोई सीखे गए पैरामीटर की आवश्यकता नहीं है और यह लंबे अनुक्रमों में अच्छी तरह एक्सट्रैपोलेट करता है। कुछ आर्किटेक्चर दृष्टिकोणों को जोड़ते हैं या सापेक्ष स्थिति biases का उपयोग करते हैं। रुझान ऐसे तरीकों की ओर है जो प्रशिक्षण लंबाई से परे सामान्यीकृत करते हैं, क्योंकि context windows बढ़ते रहते हैं।