AI21 Labs : Définition et signification — Wiki IA

Une entreprise d'IA israélienne connue pour Jamba, la première architecture hybride de qualité production qui combine des couches d'attention Transformer avec des couches SSM Mamba. AI21 a été fondée par des chercheurs en IA (incluant Yoav Shoham) et construit des modèles de langage depuis 2017, avant ChatGPT. Leurs modèles sont disponibles via API et les fournisseurs cloud.

Pourquoi c'est important

AI21 Labs compte parce que Jamba a prouvé que les architectures hybrides Transformer-SSM fonctionnent en pratique, pas seulement dans les articles de recherche. En intercalant des couches d'attention et Mamba, Jamba atteint une fenêtre de contexte de 256K avec une utilisation mémoire plus faible que les modèles purement Transformer de qualité similaire. Cette approche hybride pourrait être l'avenir de l'architecture LLM.

En profondeur

L'architecture de Jamba intercale des blocs Transformer (avec attention standard) et des blocs Mamba (avec des espaces d'états sélectifs) dans un ratio d'environ 1:7 — une couche d'attention pour sept couches Mamba. Cela capture le meilleur des deux : les couches Mamba gèrent le gros du traitement de séquence efficacement (linéaire en longueur de séquence), tandis que les couches d'attention fournissent l'interaction globale entre tokens qui manque parfois aux SSM purs. Le résultat : un modèle qui tient dans un seul GPU de 80 Go à 256K de contexte tout en égalant les modèles purement Transformer en qualité.

Le composant MoE

Jamba utilise aussi le Mixture of Experts (MoE), avec 52 milliards de paramètres totaux mais seulement environ 12 milliards actifs par token. Cette combinaison de SSM + Attention + MoE est l'architecture hybride la plus complexe en production et démontre que ces techniques se composent bien. La réduction de 3x de la mémoire du cache KV comparée à un Transformer pur de qualité équivalente est pratiquement significative pour servir des charges de travail à long contexte.

AI21 Labs

Pourquoi c'est important

En profondeur

Le composant MoE

Concepts connexes