Stocke les tenseurs d'attention clé/valeur déjà calculés pour éviter de les recalculer à chaque nouveau token. Échange de la mémoire contre de la vitesse.
Pourquoi c'est important
Le KV cache est la raison pour laquelle l'inférence LLM est limitée par la mémoire. Un contexte de 100K sur un modèle 70B peut nécessiter ~256 Go de cache — plus que les poids eux-mêmes. C'est la contrainte fondamentale de l'inférence en contexte long.
En profondeur
Le calcul mémoire : 2 × couches × têtes × dim_tête × longueur_séquence × octets. Optimisations : GQA, MQA, PagedAttention, fenêtre glissante, quantification du KV cache.