KV कैश अब इन्फ़रेंस का बॉटलनेक है — 10 कम्प्रेशन तकनीकों का सर्वे (H2O, StreamingLLM, KIVI, KVQuant, TurboQuant, MLA, GQA, Palu) ट्रेड-ऑफ़ का नक़्शा देता है

KV कैश मेमोरी ने उत्पादन-स्तर पर LLM इन्फ़रेंस के लिए मॉडल वेट्स को भार-वहन करने वाली बाधा के रूप में पीछे छोड़ दिया है। बुधवार को प्रकाशित Marktechpost तकनीकी सर्वे के आंकड़े: 30 अरब-पैरामीटर मॉडल जो बैच 128 के साथ 1,024-टोकन इनपुट चला रहा है, उसे KV कैश स्थिति के लिए ही लगभग 180GB चाहिए। 7B मॉडल के लिए, KV कैश (72GB) मॉडल पैरामीटर्स (FP16 पर 14GB) से 5 गुना बड़ा है। यह वह उलटाव है जो एक सक्रिय अनुसंधान क्षेत्र को चलाता है — बेस मॉडल को फिर से प्रशिक्षित किए बिना KV कैश को कंप्रेस करें और आप बैच आकार की गुंजाइश वापस पाते हैं, थ्रूपुट बढ़ाते हैं, और उसी हार्डवेयर पर अधिक समवर्ती उपयोगकर्ताओं की सेवा करते हैं। सर्वे चार रणनीति परिवारों में 10 उत्पादन-प्रासंगिक तकनीकें कवर करता है।

परिवार एक eviction है — कुछ टोकन रखें, कुछ हटाएं। H2O (Heavy Hitter Oracle, NeurIPS 2023) ने देखा कि टोकन का एक छोटा अंश अधिकांश ध्यान द्रव्यमान वहन करता है और गतिशील रूप से उन्हें और हाल के टोकन को बनाए रखता है, OPT-6.7B/30B पर HuggingFace Accelerate पर 29x थ्रूपुट प्राप्त करता है। StreamingLLM पहले कुछ टोकन को रखता है (जो "ध्यान सिंक" के रूप में कार्य करते हैं) और एक स्लाइडिंग रीसेंसी विंडो — तेज़ और हार्डवेयर-अनुकूल लेकिन मध्य संदर्भ में सिमेंटिक महत्व के प्रति अंधा। SnapKV लंबे prompts के अंत में एक अवलोकन विंडो का उपयोग करता है ताकि विशेष रूप से prefill चरण को कंप्रेस किया जा सके, उस चरण पर हमला करता है जिसे H2O अछूता छोड़ता है। PyramidKV / PyramidInfer देखे गए ध्यान पैटर्न के आधार पर प्रति परत विभिन्न कैश आकार आवंटित करता है, 2.2x थ्रूपुट और 54 प्रतिशत GPU मेमोरी कमी का दावा करता है। eviction परिवार का विफलता मोड सूचना हानि है: जो कुछ भी फेंक दिया जाता है, वह बाक़ी पीढ़ी के लिए चला जाता है, इसलिए ऐसे कार्यों पर गुणवत्ता गिरती है जिन्हें बिखरे मध्य-संदर्भ रिकॉल की आवश्यकता होती है।

परिवार दो क्वांटाइज़ेशन है — सभी टोकन रखें, प्रति टोकन बिट्स कम करें। KIVI प्लग-एंड-प्ले 2-बिट KV क्वांटाइज़ेशन है, फ़ाइन-ट्यूनिंग की आवश्यकता नहीं, चाबियाँ प्रति-चैनल और मान प्रति-टोकन क्वांटाइज़ करता है; 2.6x पीक मेमोरी कमी, 4x बड़े बैच, और 2.35-3.47x थ्रूपुट लाभ की रिपोर्ट करता है। KVQuant कैलिब्रेटेड मिश्रित-परिशुद्धता जोड़ता है (प्रति-चैनल कुंजी क्वांट, pre-RoPE क्वांट, घना-विरल विघटन) और 1 करोड़ टोकन तक के संदर्भों के लिए सब-4-बिट परिशुद्धता तक धकेलता है। TurboQuant — Google की हाल की विधि — रैंडम ऑर्थोगोनल रोटेशन (PolarQuant) प्लस 1-बिट क्वांटाइज़्ड Johnson-Lindenstrauss सुधार का उपयोग करती है, 3-बिट पर 6-8x मेमोरी कमी का दावा बिना ऑफ़लाइन कैलिब्रेशन चरण के। परिवार तीन वास्तुकलात्मक है: Grouped-Query Attention (GQA) और Multi-Query Attention (MQA) डिज़ाइन से KV कैश आकार कम करते हैं — कई क्वेरी हेड कम key/value हेड साझा करते हैं। GQA अब Llama 3, Mistral, और अधिकांश ओपन-वेट मॉडल में डी फ़ैक्टो डिफ़ॉल्ट है। DeepSeek का Multi-head Latent Attention (MLA) आगे जाता है: इन्फ़रेंस के दौरान चाबियों और मानों को संकुचित गुप्त वेक्टर में प्रोजेक्ट करता है और गुणवत्ता हानि के बिना DeepSeek-V2 में 93.3 प्रतिशत KV कैश कमी की रिपोर्ट करता है। परिवार चार — Palu / LoRC का लो-रैंक वेट विघटन — समूह-हेड लो-रैंक प्रोजेक्शन लागू करता है और क्वांटाइज़ेशन और eviction दोनों के ऑर्थोगोनल है, मतलब यह अन्य परिवारों के साथ स्टैक हो सकता है।

बिल्डरों के लिए, तीन सीख। पहली, सही तकनीक इस पर निर्भर करती है कि कौन सा चरण आपको बाधित करता है। यदि prefill विलंबता बाधा है (बहुत लंबे prompts), SnapKV और Pyramid-वर्ग के तरीक़े मदद करते हैं; यदि decode थ्रूपुट बाधा है (लंबी पीढ़ियाँ, बहुत समवर्ती उपयोगकर्ता), H2O, KIVI, और StreamingLLM हावी होते हैं। यदि आप शुरू से नया मॉडल प्रशिक्षित कर रहे हैं, वास्तुकलात्मक फ़िक्स (GQA/MLA) पहली लीवर है — यह इन्फ़रेंस समय पर मुफ़्त है और बाक़ी सब के साथ स्टैक होता है। दूसरी, देखें कि कौन से इन्फ़रेंस स्टैक कौन सी तकनीकें एकीकृत करते हैं: vLLM, TensorRT-LLM, SGLang, llama.cpp, और TGI में से प्रत्येक के पास अलग समर्थित सेट हैं, और "अनुसंधान पेपर X का दावा करता है" और "उत्पादन लाइब्रेरी आपके GPU पर काम करने वाले कर्नेल के साथ X भेजती है" के बीच का अंतर वास्तविक है। तीसरी, उलटाव (KV कैश > मॉडल वेट्स) वास्तुकलात्मक कारण है जिसके कारण 2025-2026 में हर फ़्रंटियर मॉडल रिलीज़ ने ध्यान संशोधनों के साथ शिप किया है (Llama 3 का GQA, DeepSeek-V2/V3 का MLA, Qwen3 का हाइब्रिड GDN-प्लस-ध्यान)। आप अब जो "ओपन वज़न" डाउनलोड करते हैं उसमें निहित KV-कैश-कम्प्रेशन दांव शामिल हैं; यदि आप मॉडलों की तुलना कर रहे हैं, इन्फ़रेंस लागत की तुलना के लिए अपने विशिष्ट बैच आकार और अनुक्रम लंबाई पर KV कैश पदचिह्न मापना आवश्यक है, सिर्फ़ पैरामीटर गिनती नहीं। बिल्डर सबक़: जब मेमोरी बाधा है, मॉडल वज़न गिनती अब तुलना की सही इकाई नहीं है।

KV कैश अब इन्फ़रेंस का बॉटलनेक है — 10 कम्प्रेशन तकनीकों का सर्वे (H2O, StreamingLLM, KIVI, KVQuant, TurboQuant, MLA, GQA, Palu) ट्रेड-ऑफ़ का नक़्शा देता है

और समाचार