儲存先前計算的注意力鍵/值張量,使得每生成一個新詞元時無需重新計算。以記憶體換取速度。
記憶體計算公式:2 × 層數 × 注意力頭數 × 頭維度 × 序列長度 × 位元組數。優化方法包括:GQA、MQA、PagedAttention、滑動視窗、KV 快取量化。