Atenção de janela deslizante: cada token atende apenas a tokens dentro de uma janela fixa (ex., 4096 tokens). Informação de tokens anteriores se propaga através das camadas — a camada 1 vê 4096 tokens, a camada 2 efetivamente vê 8192 (duas janelas), e pela camada final, informação da sequência completa teve chance de se propagar. Mistral-7B usa uma janela deslizante de 4096 tokens em suas 32 camadas.
O Longformer combina atenção de janela deslizante (local) com atenção global em tokens selecionados (como [CLS] ou posições definidas pelo usuário). O BigBird adiciona conexões de atenção aleatórias além de padrões locais e globais. Essas abordagens híbridas permitem que modelos lidem com 4K–16K tokens com custo subquadrático mantendo a capacidade de conectar tokens distantes através de posições globais.
A atenção esparsa funciona bem para muitas tarefas, mas pode degradar em tarefas que exigem dependências exatas de longo alcance — referenciar um fato específico do início de um documento longo, manter consistência em uma conversa longa, ou seguir instruções complexas que abrangem muitos tokens. Atenção densa (quadrática completa) com Flash Attention permanece mais robusta para esses casos, é por isso que a maioria dos modelos de fronteira ainda usa atenção densa e confia no Flash Attention para eficiência em vez de esparsidade.