पहले से गणना किए गए key/value attention tensors को स्टोर करता है ताकि प्रत्येक नए टोकन के लिए उनकी पुनर्गणना न करनी पड़े। memory की कीमत पर गति प्राप्त करता है।
यह क्यों मायने रखता है
KV cache ही कारण है कि LLM inference memory-bound है। 70B मॉडल पर 100K context को ~256 GB cache की आवश्यकता हो सकती है — weights से अधिक। यह long-context inference पर मूलभूत बाधा है।
गहन अध्ययन
Memory गणित: 2 × layers × heads × head_dim × seq_len × bytes। Optimizations: GQA, MQA, PagedAttention, sliding window, KV cache quantization।