L'architecture de Jamba intercale des blocs Transformer (avec attention standard) et des blocs Mamba (avec des espaces d'états sélectifs) dans un ratio d'environ 1:7 — une couche d'attention pour sept couches Mamba. Cela capture le meilleur des deux : les couches Mamba gèrent le gros du traitement de séquence efficacement (linéaire en longueur de séquence), tandis que les couches d'attention fournissent l'interaction globale entre tokens qui manque parfois aux SSM purs. Le résultat : un modèle qui tient dans un seul GPU de 80 Go à 256K de contexte tout en égalant les modèles purement Transformer en qualité.
Jamba utilise aussi le Mixture of Experts (MoE), avec 52 milliards de paramètres totaux mais seulement environ 12 milliards actifs par token. Cette combinaison de SSM + Attention + MoE est l'architecture hybride la plus complexe en production et démontre que ces techniques se composent bien. La réduction de 3x de la mémoire du cache KV comparée à un Transformer pur de qualité équivalente est pratiquement significative pour servir des charges de travail à long contexte.