Jamba的架构以大约1:7的比例交错Transformer块(带有标准注意力)和Mamba块(带有选择性状态空间)——每七个Mamba层配一个注意力层。这兼得了两者的优势:Mamba层高效处理大部分序列处理(与序列长度线性关系),而注意力层提供纯SSM有时缺乏的全局token交互。结果:一个在256K上下文下可装入单个80GB GPU的模型,同时在质量上匹配纯Transformer模型。
Jamba还使用混合专家(MoE),总参数520亿但每个token仅约120亿活跃参数。SSM + 注意力 + MoE的组合是生产中最复杂的混合架构,证明了这些技术可以很好地组合。与同等质量的纯Transformer相比,KV缓存内存减少3倍,对于服务长上下文工作负载具有重要的实际意义。