Zubnet AIApprendreWiki › KV Cache
Infrastructure

KV Cache

Aussi appelé : Cache clé-valeur
Stocke les tenseurs d'attention clé/valeur déjà calculés pour éviter de les recalculer à chaque nouveau token. Échange de la mémoire contre de la vitesse.

Pourquoi c'est important

Le KV cache est la raison pour laquelle l'inférence LLM est limitée par la mémoire. Un contexte de 100K sur un modèle 70B peut nécessiter ~256 Go de cache — plus que les poids eux-mêmes. C'est la contrainte fondamentale de l'inférence en contexte long.

En profondeur

Le calcul mémoire : 2 × couches × têtes × dim_tête × longueur_séquence × octets. Optimisations : GQA, MQA, PagedAttention, fenêtre glissante, quantification du KV cache.

Concepts connexes

← Tous les termes
← Kling AI LangChain →
ESC