Zubnet AIAprenderWiki › Codificación Posicional
Fundamentos

Codificación Posicional

Positional Embedding, RoPE, ALiBi
Un mecanismo que le dice a un modelo Transformer el orden de los tokens en una secuencia. A diferencia de los RNNs que procesan tokens secuencialmente (así que la posición es implícita), los Transformers procesan todos los tokens en paralelo y no tienen sentido inherente del orden. Las codificaciones posicionales inyectan información de posición para que el modelo sepa que "el perro muerde al hombre" y "el hombre muerde al perro" son diferentes.

Por qué importa

Sin información posicional, un Transformer trata una oración como una bolsa de palabras — el orden de las palabras se pierde. La elección de codificación posicional también determina qué tan bien un modelo maneja secuencias más largas que las vistas durante el entrenamiento, por lo que técnicas como RoPE y ALiBi son críticas para modelos de contexto largo.

En profundidad

El Transformer original (2017) usó funciones sinusoidales fijas a diferentes frecuencias para cada posición y dimensión. Estas tenían una propiedad teórica interesante: el modelo podía aprender a atender a posiciones relativas porque los patrones sinusoidales crean desplazamientos consistentes. Pero los embeddings posicionales aprendidos (un vector entrenable para cada posición) rápidamente se convirtieron en el estándar porque rendían ligeramente mejor, a pesar de estar limitados a la longitud máxima de entrenamiento.

RoPE: El Estándar Moderno

Rotary Position Embeddings (RoPE, Su et al., 2021) codifican la posición rotando los vectores de query y key en el mecanismo de atención. El ángulo de rotación depende de la posición, así que el producto punto entre dos tokens codifica naturalmente su distancia relativa. RoPE es usado por LLaMA, Mistral, Qwen y la mayoría de los LLMs modernos. Su ventaja clave: permite la extrapolación de longitud — los modelos pueden manejar secuencias algo más largas que las vistas durante el entrenamiento, especialmente cuando se combinan con técnicas como YaRN o escalado NTK-aware.

ALiBi y Más Allá

ALiBi (Attention with Linear Biases) toma un enfoque más simple: en lugar de modificar embeddings, añade una penalización lineal a los puntajes de atención basada en la distancia entre tokens. Los tokens más lejanos reciben mayor penalización. Esto no requiere parámetros aprendidos y extrapola bien a secuencias más largas. Algunas arquitecturas combinan enfoques o usan sesgos de posición relativa. La tendencia es hacia métodos que generalizan más allá de la longitud de entrenamiento, ya que las ventanas de contexto siguen creciendo.

Conceptos relacionados

← Todos los términos
← CNN Cohere →
ESC