KV Cache : Définition et signification — Wiki IA

Stocke les tenseurs d'attention clé/valeur déjà calculés pour éviter de les recalculer à chaque nouveau token. Échange de la mémoire contre de la vitesse.

Pourquoi c'est important

Le KV cache est la raison pour laquelle l'inférence LLM est limitée par la mémoire. Un contexte de 100K sur un modèle 70B peut nécessiter ~256 Go de cache — plus que les poids eux-mêmes. C'est la contrainte fondamentale de l'inférence en contexte long.

En profondeur

Le calcul mémoire : 2 × couches × têtes × dim_tête × longueur_séquence × octets. Optimisations : GQA, MQA, PagedAttention, fenêtre glissante, quantification du KV cache.

KV Cache

Pourquoi c'est important

En profondeur

Concepts connexes