AI21 Labs: Definition & Meaning — AI Wiki

Une compagnie d'IA israélienne connue pour Jamba, la première architecture hybride de niveau production qui combine des couches d'attention Transformer avec des couches Mamba SSM. AI21 a été fondée par des chercheurs en IA (incluant Yoav Shoham) et construit des modèles de langage depuis 2017, bien avant ChatGPT. Leurs modèles sont disponibles via API et à travers des fournisseurs cloud.

Pourquoi c'est important

AI21 Labs compte parce que Jamba a prouvé que les architectures hybrides Transformer-SSM fonctionnent en pratique, pas juste dans les papiers de recherche. En entrelaçant des couches d'attention et des couches Mamba, Jamba atteint une fenêtre de contexte de 256K avec une utilisation mémoire plus basse que des modèles Transformer purs de qualité similaire. Cette approche hybride pourrait être l'avenir de l'architecture des LLM.

Deep Dive

Jamba's architecture interleaves Transformer blocks (with standard attention) and Mamba blocks (with selective state spaces) in a ratio of roughly 1:7 — one attention layer for every seven Mamba layers. This captures the best of both: Mamba layers handle the bulk of sequence processing efficiently (linear in sequence length), while attention layers provide the global token interaction that pure SSMs sometimes lack. The result: a model that fits in a single 80GB GPU at 256K context while matching Transformer-only models on quality.

The MoE Component

Jamba also uses Mixture of Experts (MoE), with 52B total parameters but only ~12B active per token. This combination of SSM + Attention + MoE is the most complex hybrid architecture in production and demonstrates that these techniques compose well. The 3x reduction in KV cache memory compared to a pure Transformer of equivalent quality is practically significant for serving long-context workloads.

AI21 Labs

Pourquoi c'est important

Deep Dive

The MoE Component

Concepts liés