El Transformer original (2017) usó funciones sinusoidales fijas a diferentes frecuencias para cada posición y dimensión. Estas tenían una propiedad teórica interesante: el modelo podía aprender a atender a posiciones relativas porque los patrones sinusoidales crean desplazamientos consistentes. Pero los embeddings posicionales aprendidos (un vector entrenable para cada posición) rápidamente se convirtieron en el estándar porque rendían ligeramente mejor, a pesar de estar limitados a la longitud máxima de entrenamiento.
Rotary Position Embeddings (RoPE, Su et al., 2021) codifican la posición rotando los vectores de query y key en el mecanismo de atención. El ángulo de rotación depende de la posición, así que el producto punto entre dos tokens codifica naturalmente su distancia relativa. RoPE es usado por LLaMA, Mistral, Qwen y la mayoría de los LLMs modernos. Su ventaja clave: permite la extrapolación de longitud — los modelos pueden manejar secuencias algo más largas que las vistas durante el entrenamiento, especialmente cuando se combinan con técnicas como YaRN o escalado NTK-aware.
ALiBi (Attention with Linear Biases) toma un enfoque más simple: en lugar de modificar embeddings, añade una penalización lineal a los puntajes de atención basada en la distancia entre tokens. Los tokens más lejanos reciben mayor penalización. Esto no requiere parámetros aprendidos y extrapola bien a secuencias más largas. Algunas arquitecturas combinan enfoques o usan sesgos de posición relativa. La tendencia es hacia métodos que generalizan más allá de la longitud de entrenamiento, ya que las ventanas de contexto siguen creciendo.