存储先前计算的键/值注意力张量,使其不需要在每个新token时重新计算。用内存换取速度。
KV缓存是LLM推理受限于内存的原因。在一个70B模型上处理10万token的上下文可能需要约256GB的缓存——比模型权重本身还大。这是长上下文推理的根本约束。
内存计算公式:2 × 层数 × 注意力头数 × 头维度 × 序列长度 × 字节数。优化方法包括:GQA(分组查询注意力)、MQA(多查询注意力)、PagedAttention、滑动窗口、KV缓存量化。