Token : Définition et signification — Wiki IA

Des mécanismes d'attention qui ne traitent qu'un sous-ensemble des paires de tokens au lieu de la matrice d'attention complète N×N. L'attention à fenêtre glissante n'assiste qu'aux tokens proches (dans une fenêtre fixe). Les patterns épars (comme la combinaison locale + globale de Longformer) laissent certains tokens assister à tout tandis que la plupart des tokens assistent localement. Ces approches réduisent le coût quadratique de l'attention pour les longues séquences.

Pourquoi c'est important

L'attention éparse est la façon dont Mistral, Mixtral et d'autres modèles efficaces gèrent les longues séquences sans le coût complet de l'attention dense. C'est le compromis pratique entre « assister à tout » (coûteux mais exhaustif) et « n'assister à rien de distant » (bon marché mais limité). Comprendre l'attention éparse t'aide à évaluer les revendications sur la longueur de contexte et à prédire où la dégradation de qualité pourrait survenir.

En profondeur

L'attention à fenêtre glissante : chaque token n'assiste qu'aux tokens dans une fenêtre fixe (par ex. 4096 tokens). L'information des tokens antérieurs se propage à travers les couches — la couche 1 voit 4096 tokens, la couche 2 en voit effectivement 8192 (deux fenêtres), et à la couche finale, l'information de la séquence complète a eu la chance de se propager. Mistral-7B utilise une fenêtre glissante de 4096 tokens à travers ses 32 couches.

Patterns hybrides

Longformer combine l'attention à fenêtre glissante (locale) avec une attention globale sur des tokens sélectionnés (comme [CLS] ou des positions définies par l'utilisateur). BigBird ajoute des connexions d'attention aléatoires en plus des patterns locaux et globaux. Ces approches hybrides permettent aux modèles de gérer de 4K à 16K tokens avec un coût sous-quadratique tout en maintenant la capacité de connecter des tokens distants via les positions globales.

Le compromis de qualité

L'attention éparse fonctionne bien pour beaucoup de tâches mais peut se dégrader sur des tâches nécessitant des dépendances précises à longue portée — référencer un fait spécifique du début d'un long document, maintenir la cohérence dans une longue conversation, ou suivre des instructions complexes qui s'étendent sur de nombreux tokens. L'attention dense (quadratique complète) avec Flash Attention reste plus robuste pour ces cas, c'est pourquoi la plupart des modèles de pointe utilisent encore l'attention dense et comptent sur Flash Attention pour l'efficacité plutôt que sur la parcimonie.

Attention éparse

Pourquoi c'est important

En profondeur

Patterns hybrides

Le compromis de qualité

Concepts connexes