Jamba का आर्किटेक्चर Transformer ब्लॉक (मानक attention के साथ) और Mamba ब्लॉक (selective state spaces के साथ) को लगभग 1:7 के अनुपात में interleave करता है — प्रत्येक सात Mamba परतों के लिए एक attention परत। यह दोनों का सर्वश्रेष्ठ पकड़ता है: Mamba परतें अनुक्रम प्रोसेसिंग के बड़े हिस्से को कुशलतापूर्वक (अनुक्रम लंबाई में रैखिक) संभालती हैं, जबकि attention परतें वैश्विक टोकन इंटरैक्शन प्रदान करती हैं जो शुद्ध SSMs में कभी-कभी कमी होती है। परिणाम: एक मॉडल जो 256K context पर एकल 80GB GPU में फिट होता है और गुणवत्ता पर केवल-Transformer मॉडल से मेल खाता है।
Jamba Mixture of Experts (MoE) का भी उपयोग करता है, कुल 52B पैरामीटर लेकिन प्रति टोकन केवल ~12B सक्रिय। SSM + Attention + MoE का यह संयोजन प्रोडक्शन में सबसे जटिल हाइब्रिड आर्किटेक्चर है और प्रदर्शित करता है कि ये तकनीकें अच्छी तरह compose करती हैं। समान गुणवत्ता के शुद्ध Transformer की तुलना में KV cache मेमोरी में 3x कमी लंबे-context workloads को serve करने के लिए व्यावहारिक रूप से महत्वपूर्ण है।