Zubnet AIसीखेंWiki › GQA
मूल तत्व

GQA

इसे भी कहा जाता है: Grouped Query Attention
एक attention वैरिएंट जहां कई query heads एक single key-value head साझा करते हैं, जो गुणवत्ता में महत्वपूर्ण कमी किए बिना KV cache आकार को कम करता है। हर query head के अपने K और V प्रक्षेपण (मानक MHA) होने के बजाय, query heads के समूह K और V प्रक्षेपण साझा करते हैं। Llama 2 70B, Mistral, Gemma, और अधिकांश आधुनिक LLMs GQA का उपयोग करते हैं।

यह क्यों मायने रखता है

GQA KV cache मेमोरी समस्या का व्यावहारिक समाधान है। 64 heads वाले मानक multi-head attention को cache में प्रति लेयर K और V tensors के 64 सेट की आवश्यकता होती है। 8 KV heads वाला GQA इसे 8 सेट तक कम करता है — 8x मेमोरी कमी। यह सीधे एक ही हार्डवेयर पर अधिक समवर्ती उपयोगकर्ताओं की सेवा या लंबे संदर्भों को संभालने में अनुवादित होता है।

गहन अध्ययन

स्पेक्ट्रम: Multi-Head Attention (MHA) में Q, K, V heads की समान संख्या होती है — अधिकतम गुणवत्ता, अधिकतम मेमोरी। Multi-Query Attention (MQA) में कई Q heads होते हैं लेकिन केवल एक K और एक V head — न्यूनतम मेमोरी, कुछ गुणवत्ता हानि। GQA मध्य मार्ग है: Q heads को समूहों में विभाजित करें, प्रत्येक समूह एक K और एक V head साझा करता है। 32 Q heads और 8 KV समूहों वाले मॉडल में प्रत्येक KV head 4 Q heads की सेवा करता है।

गुणवत्ता बनाम मेमोरी

शोध दिखाता है कि 8 KV heads वाला GQA अधिकांश कार्यों के लिए MHA गुणवत्ता से मेल खाता है जबकि 4–8x कम KV cache मेमोरी का उपयोग करता है। गुणवत्ता का संरक्षण कुछ हद तक आश्चर्यजनक है: यह सुझाव देता है कि कई attention heads समान key-value पैटर्न सीख रहे हैं, इसलिए उन्हें साझा करना सीमित करने के बजाय कुशल है। किसी मौजूदा MHA मॉडल को "uptraining" (एक छोटा फाइन-ट्यूनिंग चरण) के माध्यम से GQA में परिवर्तित करना भी प्रभावी है, शुरू से पुन: प्रशिक्षित करने की आवश्यकता से बचते हुए।

इन्फरेंस पर प्रभाव

GQA से KV cache मेमोरी बचत सीधे अनुवादित होती है: एक ही GPU पर लंबी context windows, अधिक समवर्ती अनुरोध (उच्च throughput), और तेज़ attention गणना (कम K और V tensors पढ़ने के लिए)। 128K context पर 70B मॉडल के लिए, MHA और GQA के बीच का अंतर सैकड़ों गीगाबाइट KV cache हो सकता है — 8 GPUs की आवश्यकता और 4 की आवश्यकता के बीच का अंतर।

संबंधित अवधारणाएँ

← सभी शब्द
← GPU Gradient Checkpointing →