Zubnet AIApprendreWiki › Attention croisée
Fondamentaux

Attention croisée

Aussi appelé : Attention encodeur-décodeur
Un mécanisme d'attention où les requêtes (queries) proviennent d'une séquence et les clés/valeurs d'une autre séquence. Dans les modèles encodeur-décodeur, les requêtes du décodeur assistent aux clés et valeurs de l'encodeur, permettant au décodeur de « regarder » l'entrée pendant qu'il génère la sortie. L'attention croisée est aussi la façon dont le texte conditionne la génération d'images dans les modèles de diffusion — le processus de génération d'image assiste au prompt textuel.

Pourquoi c'est important

L'attention croisée est le pont entre différentes modalités et différentes parties d'une architecture. C'est ainsi que les modèles de traduction connectent les langues source et cible, que les générateurs d'images suivent les prompts textuels, que les modèles multimodaux relient images et texte, et que les systèmes RAG incorporent les documents récupérés. Chaque fois que deux entrées différentes doivent interagir, l'attention croisée est généralement impliquée.

En profondeur

Dans l'auto-attention, Q, K et V proviennent tous de la même séquence — chaque token assiste aux autres tokens de la même entrée. Dans l'attention croisée, Q provient d'une source (par ex. le décodeur) et K, V d'une autre (par ex. l'encodeur). Le token du décodeur demande « qu'est-ce qui dans l'entrée est pertinent pour ce que je génère maintenant ? » et le mécanisme d'attention fournit un résumé pondéré de l'entrée.

Dans les modèles de diffusion

Les modèles text-to-image utilisent l'attention croisée pour conditionner la génération d'image sur le texte. Le prompt textuel est encodé en embeddings (via CLIP ou T5), et à chaque étape de débruitage, les features de l'image assistent aux embeddings textuels par les couches d'attention croisée. C'est ainsi que le modèle sait générer un « chat sur une planche de surf » — chaque position spatiale dans l'image assiste aux mots pertinents. Manipuler ces cartes d'attention croisée est la base des techniques comme la pondération de prompt et l'édition d'attention.

Patterns d'attention

L'auto-attention et l'attention croisée ont des profils computationnels différents. L'auto-attention est quadratique par rapport à la longueur de la séquence (chaque token assiste à chaque autre token). L'attention croisée est linéaire en la longueur du décodeur fois la longueur de l'encodeur (chaque token du décodeur assiste à tous les tokens de l'encodeur). En pratique, la sortie de l'encodeur est souvent beaucoup plus courte que la séquence du décodeur, rendant l'attention croisée moins coûteuse que l'auto-attention du décodeur.

Concepts connexes

← Tous les termes
← Attention Attention multi-tête →