L'attention à fenêtre glissante : chaque token n'assiste qu'aux tokens dans une fenêtre fixe (par ex. 4096 tokens). L'information des tokens antérieurs se propage à travers les couches — la couche 1 voit 4096 tokens, la couche 2 en voit effectivement 8192 (deux fenêtres), et à la couche finale, l'information de la séquence complète a eu la chance de se propager. Mistral-7B utilise une fenêtre glissante de 4096 tokens à travers ses 32 couches.
Longformer combine l'attention à fenêtre glissante (locale) avec une attention globale sur des tokens sélectionnés (comme [CLS] ou des positions définies par l'utilisateur). BigBird ajoute des connexions d'attention aléatoires en plus des patterns locaux et globaux. Ces approches hybrides permettent aux modèles de gérer de 4K à 16K tokens avec un coût sous-quadratique tout en maintenant la capacité de connecter des tokens distants via les positions globales.
L'attention éparse fonctionne bien pour beaucoup de tâches mais peut se dégrader sur des tâches nécessitant des dépendances précises à longue portée — référencer un fait spécifique du début d'un long document, maintenir la cohérence dans une longue conversation, ou suivre des instructions complexes qui s'étendent sur de nombreux tokens. L'attention dense (quadratique complète) avec Flash Attention reste plus robuste pour ces cas, c'est pourquoi la plupart des modèles de pointe utilisent encore l'attention dense et comptent sur Flash Attention pour l'efficacité plutôt que sur la parcimonie.