स्पेक्ट्रम: Multi-Head Attention (MHA) में Q, K, V heads की समान संख्या होती है — अधिकतम गुणवत्ता, अधिकतम मेमोरी। Multi-Query Attention (MQA) में कई Q heads होते हैं लेकिन केवल एक K और एक V head — न्यूनतम मेमोरी, कुछ गुणवत्ता हानि। GQA मध्य मार्ग है: Q heads को समूहों में विभाजित करें, प्रत्येक समूह एक K और एक V head साझा करता है। 32 Q heads और 8 KV समूहों वाले मॉडल में प्रत्येक KV head 4 Q heads की सेवा करता है।
शोध दिखाता है कि 8 KV heads वाला GQA अधिकांश कार्यों के लिए MHA गुणवत्ता से मेल खाता है जबकि 4–8x कम KV cache मेमोरी का उपयोग करता है। गुणवत्ता का संरक्षण कुछ हद तक आश्चर्यजनक है: यह सुझाव देता है कि कई attention heads समान key-value पैटर्न सीख रहे हैं, इसलिए उन्हें साझा करना सीमित करने के बजाय कुशल है। किसी मौजूदा MHA मॉडल को "uptraining" (एक छोटा फाइन-ट्यूनिंग चरण) के माध्यम से GQA में परिवर्तित करना भी प्रभावी है, शुरू से पुन: प्रशिक्षित करने की आवश्यकता से बचते हुए।
GQA से KV cache मेमोरी बचत सीधे अनुवादित होती है: एक ही GPU पर लंबी context windows, अधिक समवर्ती अनुरोध (उच्च throughput), और तेज़ attention गणना (कम K और V tensors पढ़ने के लिए)। 128K context पर 70B मॉडल के लिए, MHA और GQA के बीच का अंतर सैकड़ों गीगाबाइट KV cache हो सकता है — 8 GPUs की आवश्यकता और 4 की आवश्यकता के बीच का अंतर।