बुनियादी ढांचा

KV Cache

इसे यह भी कहते हैं: Key-Value Cache, की-वैल्यू कैश

पहले से गणना किए गए key/value attention tensors को स्टोर करता है ताकि प्रत्येक नए टोकन के लिए उनकी पुनर्गणना न करनी पड़े। memory की कीमत पर गति प्राप्त करता है।

यह क्यों मायने रखता है

KV cache ही कारण है कि LLM inference memory-bound है। 70B मॉडल पर 100K context को ~256 GB cache की आवश्यकता हो सकती है — weights से अधिक। यह long-context inference पर मूलभूत बाधा है।

गहन अध्ययन

Memory गणित: 2 × layers × heads × head_dim × seq_len × bytes। Optimizations: GQA, MQA, PagedAttention, sliding window, KV cache quantization।

KV Cache

यह क्यों मायने रखता है

गहन अध्ययन

संबंधित अवधारणाएँ