Zubnet AIAprenderWiki › Codificação Posicional
Fundamentos

Codificação Posicional

Também conhecido como: Positional Embedding, RoPE, ALiBi
Um mecanismo que informa a um modelo Transformer a ordem dos tokens em uma sequência. Diferente de RNNs que processam tokens sequencialmente (então a posição é implícita), Transformers processam todos os tokens em paralelo e não têm sensação inerente de ordem. Codificações posicionais injetam informação de posição para que o modelo saiba que "cachorro morde homem" e "homem morde cachorro" são diferentes.

Por que isso importa

Sem informação posicional, um Transformer trata uma frase como um saco de palavras — a ordem é perdida. A escolha da codificação posicional também determina quão bem um modelo lida com sequências maiores do que as vistas durante o treinamento, e é por isso que técnicas como RoPE e ALiBi são críticas para modelos de contexto longo.

Em profundidade

O Transformer original (2017) usou funções sinusoidais fixas em diferentes frequências para cada posição e dimensão. Essas tinham uma propriedade teórica interessante: o modelo podia aprender a prestar atenção a posições relativas porque os padrões sinusoidais criam offsets consistentes. Mas embeddings posicionais aprendidos (um vetor treinável para cada posição) rapidamente se tornaram o padrão porque tinham desempenho ligeiramente melhor, apesar de serem limitados ao comprimento máximo de treinamento.

RoPE: O Padrão Moderno

Rotary Position Embeddings (RoPE, Su et al., 2021) codificam posição rotacionando os vetores de query e key no mecanismo de attention. O ângulo de rotação depende da posição, então o produto escalar entre dois tokens naturalmente codifica sua distância relativa. RoPE é usado no LLaMA, Mistral, Qwen e na maioria dos LLMs modernos. Sua vantagem principal: permite extrapolação de comprimento — modelos podem lidar com sequências um pouco maiores do que as vistas durante o treinamento, especialmente quando combinado com técnicas como YaRN ou escalonamento NTK-aware.

ALiBi e Além

ALiBi (Attention with Linear Biases) adota uma abordagem mais simples: em vez de modificar embeddings, adiciona uma penalidade linear aos scores de attention baseada na distância entre tokens. Tokens mais distantes recebem penalidades maiores. Isso não requer parâmetros aprendidos e extrapola bem para sequências mais longas. Algumas arquiteturas combinam abordagens ou usam viéses de posição relativa. A tendência é em direção a métodos que generalizam além do comprimento de treinamento, já que janelas de contexto continuam crescendo.

Conceitos relacionados

← Todos os termos
← CNN Cohere →