KV缓存：定义与含义 — AI 维基

存储先前计算的键/值注意力张量，使其不需要在每个新token时重新计算。用内存换取速度。

为什么重要

KV缓存是LLM推理受限于内存的原因。在一个70B模型上处理10万token的上下文可能需要约256GB的缓存——比模型权重本身还大。这是长上下文推理的根本约束。

内存计算公式：2 × 层数 × 注意力头数 × 头维度 × 序列长度 × 字节数。优化方法包括：GQA（分组查询注意力）、MQA（多查询注意力）、PagedAttention、滑动窗口、KV缓存量化。