原始 Transformer(2017 年)使用不同頻率的固定正弦函數表示每個位置和維度。這些具有良好的理論特性:模型可以學習關注相對位置,因為正弦模式產生一致的偏移。但可學習的位置嵌入(每個位置一個可訓練的向量)很快成為預設,因為效能略好,儘管受限於最大訓練長度。
旋轉位置嵌入(RoPE,Su 等人,2021 年)透過在注意力機制中旋轉查詢和鍵向量來編碼位置。旋轉的角度取決於位置,因此兩個 token 之間的點積自然編碼了它們的相對距離。RoPE 被 LLaMA、Mistral、Qwen 和大多數現代 LLM 使用。其關鍵優勢:它支持長度外推——模型可以處理比訓練時見過的更長的序列,特別是當與 YaRN 或 NTK 感知縮放等技術結合使用時。
ALiBi(帶線性偏差的注意力)採用更簡單的方法:不修改嵌入,而是根據 token 之間的距離對注意力分數加上線性懲罰。較遠的 token 被懲罰得更多。這不需要可學習的參數,且能良好地外推到更長的序列。一些架構結合了多種方法或使用相對位置偏差。趨勢是朝向能在訓練長度之外進行泛化的方法,因為上下文視窗持續增長。