Zubnet AI學習Wiki › KV Cache
基礎設施

KV Cache(KV 快取)

別名:鍵值快取

儲存先前計算的注意力鍵/值張量,使得每生成一個新詞元時無需重新計算。以記憶體換取速度。

為什麼重要

KV 快取是 LLM 推理受限於記憶體的原因。在 70B 模型上使用 100K 上下文可能需要約 256 GB 的快取 — 比模型權重還多。這是長上下文推理的根本限制。

深度解析

記憶體計算公式:2 × 層數 × 注意力頭數 × 頭維度 × 序列長度 × 位元組數。優化方法包括:GQA、MQA、PagedAttention、滑動視窗、KV 快取量化。

相關概念

← 所有術語