A arquitetura do Jamba intercala blocos de Transformer (com attention padrão) e blocos de Mamba (com state spaces seletivos) em uma proporção de aproximadamente 1:7 — uma camada de attention para cada sete camadas de Mamba. Isso captura o melhor dos dois mundos: camadas Mamba lidam com o grosso do processamento de sequências eficientemente (linear no comprimento da sequência), enquanto camadas de attention fornecem a interação global de tokens que SSMs puros às vezes não conseguem. O resultado: um modelo que cabe em uma única GPU de 80GB com contexto de 256K enquanto iguala modelos Transformer-only em qualidade.
Jamba também usa Mixture of Experts (MoE), com 52B parâmetros totais mas apenas ~12B ativos por token. Essa combinação de SSM + Attention + MoE é a arquitetura híbrida mais complexa em produção e demonstra que essas técnicas se compõem bem. A redução de 3x no KV cache comparado a um Transformer puro de qualidade equivalente é praticamente significativa para serving de cargas de trabalho de contexto longo.