KV Cache：定義與含義 — AI 維基

儲存先前計算的注意力鍵/值張量，使得每生成一個新詞元時無需重新計算。以記憶體換取速度。

為什麼重要

KV 快取是 LLM 推理受限於記憶體的原因。在 70B 模型上使用 100K 上下文可能需要約 256 GB 的快取 — 比模型權重還多。這是長上下文推理的根本限制。

記憶體計算公式：2 × 層數 × 注意力頭數 × 頭維度 × 序列長度 × 位元組數。優化方法包括：GQA、MQA、PagedAttention、滑動視窗、KV 快取量化。