AI21 Labs：定义与含义 — AI 维基

一家以色列AI公司，以Jamba闻名，这是首个生产级混合架构，将Transformer注意力层与Mamba SSM层相结合。AI21由AI研究人员（包括Yoav Shoham）创建，自2017年以来一直在构建语言模型，早于ChatGPT。其模型可通过API和云提供商获取。

为什么重要

AI21 Labs之所以重要，是因为Jamba证明了混合Transformer-SSM架构在实践中是可行的，而不仅仅停留在研究论文中。通过交错注意力层和Mamba层，Jamba以低于同等质量纯Transformer模型的内存使用量实现了256K的上下文窗口。这种混合方法可能是LLM架构的未来。

深度解析

Jamba的架构以大约1:7的比例交错Transformer块（带有标准注意力）和Mamba块（带有选择性状态空间）——每七个Mamba层配一个注意力层。这兼得了两者的优势：Mamba层高效处理大部分序列处理（与序列长度线性关系），而注意力层提供纯SSM有时缺乏的全局token交互。结果：一个在256K上下文下可装入单个80GB GPU的模型，同时在质量上匹配纯Transformer模型。

MoE组件

Jamba还使用混合专家（MoE），总参数520亿但每个token仅约120亿活跃参数。SSM + 注意力 + MoE的组合是生产中最复杂的混合架构，证明了这些技术可以很好地组合。与同等质量的纯Transformer相比，KV缓存内存减少3倍，对于服务长上下文工作负载具有重要的实际意义。

AI21 Labs

为什么重要

深度解析

MoE组件

相关概念