La arquitectura de Jamba intercala bloques Transformer (con atención estándar) y bloques Mamba (con espacios de estados selectivos) en una proporción de aproximadamente 1:7 — una capa de atención por cada siete capas de Mamba. Esto captura lo mejor de ambos: las capas de Mamba manejan el grueso del procesamiento de secuencias de manera eficiente (lineal en la longitud de la secuencia), mientras que las capas de atención proporcionan la interacción global de tokens que los SSMs puros a veces carecen. El resultado: un modelo que cabe en una sola GPU de 80GB con 256K de contexto mientras iguala a modelos solo-Transformer en calidad.
Jamba también usa Mixture of Experts (MoE), con 52B de parámetros totales pero solo ~12B activos por token. Esta combinación de SSM + Atención + MoE es la arquitectura híbrida más compleja en producción y demuestra que estas técnicas se componen bien. La reducción de 3x en memoria de caché KV comparada con un Transformer puro de calidad equivalente es prácticamente significativa para servir cargas de trabajo de contexto largo.