Atenção Esparsa: Definição e significado — Wiki de IA

Mecanismos de atenção que processam apenas um subconjunto de pares de tokens em vez da matriz completa N×N de atenção. A atenção de janela deslizante atende apenas a tokens próximos (dentro de uma janela fixa). Padrões esparsos (como a combinação local + global do Longformer) permitem que tokens específicos atendam a tudo enquanto a maioria atende localmente. Essas abordagens reduzem o custo quadrático da atenção para sequências longas.

Por que isso importa

A atenção esparsa é como Mistral, Mixtral e outros modelos eficientes lidam com sequências longas sem o custo total da atenção densa. É o compromisso prático entre "atender a tudo" (caro mas completo) e "não atender a nada distante" (barato mas limitado). Entender a atenção esparsa ajuda você a avaliar alegações sobre comprimento de contexto e prever onde degradação de qualidade pode ocorrer.

Em profundidade

Atenção de janela deslizante: cada token atende apenas a tokens dentro de uma janela fixa (ex., 4096 tokens). Informação de tokens anteriores se propaga através das camadas — a camada 1 vê 4096 tokens, a camada 2 efetivamente vê 8192 (duas janelas), e pela camada final, informação da sequência completa teve chance de se propagar. Mistral-7B usa uma janela deslizante de 4096 tokens em suas 32 camadas.

Padrões Híbridos

O Longformer combina atenção de janela deslizante (local) com atenção global em tokens selecionados (como [CLS] ou posições definidas pelo usuário). O BigBird adiciona conexões de atenção aleatórias além de padrões locais e globais. Essas abordagens híbridas permitem que modelos lidem com 4K–16K tokens com custo subquadrático mantendo a capacidade de conectar tokens distantes através de posições globais.

O Trade-off de Qualidade

A atenção esparsa funciona bem para muitas tarefas, mas pode degradar em tarefas que exigem dependências exatas de longo alcance — referenciar um fato específico do início de um documento longo, manter consistência em uma conversa longa, ou seguir instruções complexas que abrangem muitos tokens. Atenção densa (quadrática completa) com Flash Attention permanece mais robusta para esses casos, é por isso que a maioria dos modelos de fronteira ainda usa atenção densa e confia no Flash Attention para eficiência em vez de esparsidade.

Atenção Esparsa

Por que isso importa

Em profundidade

Padrões Híbridos

O Trade-off de Qualidade

Conceitos relacionados