KV Cache: Definición y significado — Wiki de IA

Almacena los tensores de atención key/value previamente computados para que no necesiten recalcularse para cada nuevo token. Intercambia memoria por velocidad.

Por qué importa

La KV cache es la razón por la que la inferencia de LLMs está limitada por la memoria. Un contexto de 100K en un modelo de 70B puede necesitar ~256 GB de caché — más que los propios pesos del modelo. Esta es la restricción fundamental para la inferencia de contexto largo.

En profundidad

La matemática de la memoria: 2 × capas × cabezas × dimensión_cabeza × longitud_secuencia × bytes. Para un modelo de 70B con 80 capas, 64 cabezas y dimensión 128, a 100K tokens en FP16: eso son aproximadamente 256 GB solo para la caché.

Optimizaciones

GQA (Grouped Query Attention) y MQA (Multi-Query Attention) reducen la KV cache compartiendo cabezas key/value entre múltiples cabezas de consulta. PagedAttention (vLLM) gestiona la memoria de la caché como páginas de memoria virtual, eliminando la fragmentación. La ventana deslizante limita la caché a las N posiciones más recientes. La cuantización de KV cache reduce la precisión de los valores almacenados.

Impacto en la práctica

La KV cache es la razón por la que no puedes simplemente "agregar más contexto" sin límite, incluso si el modelo fue entrenado para ello. Es también la razón por la que servir muchos usuarios concurrentes con contextos largos requiere hardware masivo. Las estrategias de gestión de la KV cache (cuándo descartar, qué comprimir, cómo paginar) son una de las áreas más activas de la ingeniería de inferencia.

KV Cache

Por qué importa

En profundidad

Optimizaciones

Impacto en la práctica

Conceptos relacionados