Le Transformer original (2017) utilisait des fonctions sinusoïdales fixes à différentes fréquences pour chaque position et dimension. Celles-ci avaient une belle propriété théorique : le modèle pouvait apprendre à porter attention aux positions relatives parce que les patterns sinusoïdaux créent des décalages cohérents. Mais les embeddings positionnels appris (un vecteur entraînable pour chaque position) sont rapidement devenus le choix par défaut parce qu'ils performaient légèrement mieux, bien qu'étant limités à la longueur maximale d'entraînement.
Les Rotary Position Embeddings (RoPE, Su et al., 2021) encodent la position en effectuant une rotation des vecteurs de requête et de clé dans le mécanisme d'attention. L'angle de rotation dépend de la position, de sorte que le produit scalaire entre deux tokens encode naturellement leur distance relative. RoPE est utilisé par LLaMA, Mistral, Qwen et la plupart des LLM modernes. Son avantage clé : il permet l'extrapolation en longueur — les modèles peuvent gérer des séquences quelque peu plus longues que celles vues pendant l'entraînement, surtout quand combiné avec des techniques comme YaRN ou le scaling NTK-aware.
ALiBi (Attention with Linear Biases) prend une approche plus simple : au lieu de modifier les embeddings, il ajoute une pénalité linéaire aux scores d'attention basée sur la distance entre les tokens. Les tokens plus éloignés sont plus pénalisés. Cela ne nécessite aucun paramètre appris et extrapole bien aux séquences plus longues. Certaines architectures combinent les approches ou utilisent des biais de position relatifs. La tendance va vers des méthodes qui généralisent au-delà de la longueur d'entraînement, puisque les fenêtres de contexte ne cessent de grandir.