Zubnet AI学习Wiki › AI21 Labs
公司

AI21 Labs

别名:Jamba
一家以色列AI公司,以Jamba闻名,这是首个生产级混合架构,将Transformer注意力层与Mamba SSM层相结合。AI21由AI研究人员(包括Yoav Shoham)创建,自2017年以来一直在构建语言模型,早于ChatGPT。其模型可通过API和云提供商获取。

为什么重要

AI21 Labs之所以重要,是因为Jamba证明了混合Transformer-SSM架构在实践中是可行的,而不仅仅停留在研究论文中。通过交错注意力层和Mamba层,Jamba以低于同等质量纯Transformer模型的内存使用量实现了256K的上下文窗口。这种混合方法可能是LLM架构的未来。

深度解析

Jamba的架构以大约1:7的比例交错Transformer块(带有标准注意力)和Mamba块(带有选择性状态空间)——每七个Mamba层配一个注意力层。这兼得了两者的优势:Mamba层高效处理大部分序列处理(与序列长度线性关系),而注意力层提供纯SSM有时缺乏的全局token交互。结果:一个在256K上下文下可装入单个80GB GPU的模型,同时在质量上匹配纯Transformer模型。

MoE组件

Jamba还使用混合专家(MoE),总参数520亿但每个token仅约120亿活跃参数。SSM + 注意力 + MoE的组合是生产中最复杂的混合架构,证明了这些技术可以很好地组合。与同等质量的纯Transformer相比,KV缓存内存减少3倍,对于服务长上下文工作负载具有重要的实际意义。

相关概念

← 所有术语
← AI 隐私 AI与版权 →