O Transformer original (2017) usou funções sinusoidais fixas em diferentes frequências para cada posição e dimensão. Essas tinham uma propriedade teórica interessante: o modelo podia aprender a prestar atenção a posições relativas porque os padrões sinusoidais criam offsets consistentes. Mas embeddings posicionais aprendidos (um vetor treinável para cada posição) rapidamente se tornaram o padrão porque tinham desempenho ligeiramente melhor, apesar de serem limitados ao comprimento máximo de treinamento.
Rotary Position Embeddings (RoPE, Su et al., 2021) codificam posição rotacionando os vetores de query e key no mecanismo de attention. O ângulo de rotação depende da posição, então o produto escalar entre dois tokens naturalmente codifica sua distância relativa. RoPE é usado no LLaMA, Mistral, Qwen e na maioria dos LLMs modernos. Sua vantagem principal: permite extrapolação de comprimento — modelos podem lidar com sequências um pouco maiores do que as vistas durante o treinamento, especialmente quando combinado com técnicas como YaRN ou escalonamento NTK-aware.
ALiBi (Attention with Linear Biases) adota uma abordagem mais simples: em vez de modificar embeddings, adiciona uma penalidade linear aos scores de attention baseada na distância entre tokens. Tokens mais distantes recebem penalidades maiores. Isso não requer parâmetros aprendidos e extrapola bem para sequências mais longas. Algumas arquiteturas combinam abordagens ou usam viéses de posição relativa. A tendência é em direção a métodos que generalizam além do comprimento de treinamento, já que janelas de contexto continuam crescendo.