Modèle d'espace d'états sélectif de Gu & Dao. Scaling linéaire dans la longueur de séquence vs quadratique pour le Transformer. État caché compressé mis à jour sélectivement — l'info importante est préservée, l'inutile décroît.
Pourquoi c'est important
Le défi le plus crédible à la domination du Transformer. Si scaling linéaire avec des résultats de qualité Transformer, les implications sont énormes. Les architectures hybrides (Jamba, Zamba) sont déjà en production.
En profondeur
Innovation : matrices B et C dépendantes de l'entrée (sélectivité). Implémentation kernel consciente du hardware. Mamba-2 : SSM comme attention structurée. Les hybrides intercalent couches SSM + attention.