La matemática de la memoria: 2 × capas × cabezas × dimensión_cabeza × longitud_secuencia × bytes. Para un modelo de 70B con 80 capas, 64 cabezas y dimensión 128, a 100K tokens en FP16: eso son aproximadamente 256 GB solo para la caché.
GQA (Grouped Query Attention) y MQA (Multi-Query Attention) reducen la KV cache compartiendo cabezas key/value entre múltiples cabezas de consulta. PagedAttention (vLLM) gestiona la memoria de la caché como páginas de memoria virtual, eliminando la fragmentación. La ventana deslizante limita la caché a las N posiciones más recientes. La cuantización de KV cache reduce la precisión de los valores almacenados.
La KV cache es la razón por la que no puedes simplemente "agregar más contexto" sin límite, incluso si el modelo fue entrenado para ello. Es también la razón por la que servir muchos usuarios concurrentes con contextos largos requiere hardware masivo. Las estrategias de gestión de la KV cache (cuándo descartar, qué comprimir, cómo paginar) son una de las áreas más activas de la ingeniería de inferencia.