Mamba : Définition et signification — Wiki IA

Modèle d'espace d'états sélectif de Gu & Dao. Scaling linéaire dans la longueur de séquence vs quadratique pour le Transformer. État caché compressé mis à jour sélectivement — l'info importante est préservée, l'inutile décroît.

Pourquoi c'est important

Le défi le plus crédible à la domination du Transformer. Si scaling linéaire avec des résultats de qualité Transformer, les implications sont énormes. Les architectures hybrides (Jamba, Zamba) sont déjà en production.

En profondeur

Innovation : matrices B et C dépendantes de l'entrée (sélectivité). Implémentation kernel consciente du hardware. Mamba-2 : SSM comme attention structurée. Les hybrides intercalent couches SSM + attention.

Mamba

Pourquoi c'est important

En profondeur

Concepts connexes