Modèle d'espace d'états : Définition et signification — Wiki IA

Une alternative aux Transformers qui traite les séquences en maintenant un « état » compressé au lieu d'utiliser l'attention sur tous les tokens. Mamba est l'architecture SSM la plus connue. Les SSM croissent linéairement avec la longueur de la séquence (contre quadratiquement pour l'attention), les rendant potentiellement beaucoup plus efficaces pour les très longs contextes.

Pourquoi c’est important

Les SSM sont le principal concurrent de la domination des Transformers. Ils sont plus rapides pour les longues séquences et utilisent moins de mémoire, mais la recherche est encore en cours de maturation. Les architectures hybrides (mélangeant des couches SSM avec de l'attention) pourraient bien offrir le meilleur des deux mondes.

En profondeur

Les state-space models empruntent leur cadre mathématique à la théorie du contrôle, où les SSM sont utilisés depuis des décennies pour modéliser des systèmes dynamiques. L'idée centrale est une récurrence linéaire : le modèle maintient un état caché qui est mis à jour à chaque pas de temps par une transformation linéaire apprise, puis mélangé avec l'entrée courante. En temps continu, c'est une équation différentielle (dx/dt = Ax + Bu, y = Cx + Du). La discrétiser donne une récurrence qui peut traiter les séquences token par token, mettant à jour un état de taille fixe à chaque étape. La partie élégante est que pendant l'entraînement, cette récurrence peut être déroulée en une convolution, la rendant parallélisable sur GPU comme l'attention. Pendant l'inférence, on repasse à la forme récurrente et on traite les tokens un à la fois avec une mémoire constante — pas de KV cache croissant.

La percée Mamba

Mamba (Albert Gu et Tri Dao, 2023) a été la percée qui a rendu les SSM compétitifs avec les Transformers sur le langage. Les SSM antérieurs comme S4 et H3 utilisaient des matrices de transition d'état fixes, ce qui limitait leur capacité à effectuer du raisonnement basé sur le contenu — le modèle ne pouvait pas changer sa façon de traiter un token en fonction de ce que ce token contenait. Mamba a introduit les selective state spaces, où les matrices A, B et C sont des fonctions de l'entrée. Cela permet au modèle de décider, à chaque token, combien retenir et combien oublier. Voyez cela comme un mécanisme de gating appris et différentiable, mais opérant à travers le prisme de la récurrence linéaire plutôt que de l'attention. Mamba-2 a ensuite reformulé cela sous le nom de structured state space duality (SSD), révélant que les SSM sélectifs et l'attention linéaire sont mathématiquement apparentés, et permettant des implémentations GPU encore plus rapides via des algorithmes basés sur la multiplication matricielle.

Les avantages pratiques sont réels et mesurables. Pendant l'inférence, un Transformer doit stocker des paires clé-valeur pour chaque token dans le contexte — ce KV cache croît linéairement avec la longueur de la séquence et constitue le principal goulot d'étranglement pour le service en contexte long. Un SSM maintient un état de taille fixe quel que soit le nombre de tokens qu'il a vus. Pour un modèle avec une fenêtre de contexte de 128K, cette différence est énorme : le SSM utilise la même mémoire pour générer le token 128 001 que pour le token 1. Le débit d'entraînement bénéficie aussi des longues séquences parce que le mode scan parallèle ou convolution croît linéairement avec la longueur de séquence, contre la croissance quadratique de l'attention complète. Ces gains d'efficacité sont la raison pour laquelle les SSM sont particulièrement attrayants pour les applications nécessitant du contexte à longue portée : analyse de documents, génération de code sur de grands dépôts, et streaming en temps réel où les tokens arrivent continuellement.

Le problème de la récupération

Cela dit, les SSM ont de vraies limitations que le battage médiatique a tendance à minimiser. Les SSM purs peuvent avoir du mal avec les tâches qui nécessitent une récupération précise depuis un endroit antérieur du contexte — le problème de l'« aiguille dans une botte de foin ». Un Transformer peut, en principe, prêter attention directement à n'importe quel token passé via ses poids d'attention. Un SSM doit avoir compressé l'information pertinente dans son état de taille fixe, et s'il n'a pas priorisé les bonnes choses quand il a traité ce token pour la première fois, l'information est perdue. C'est pourquoi les architectures hybrides — alternant des couches SSM avec quelques couches d'attention — gagnent du terrain. Jamba (de AI21) et divers hybrides de recherche ont montré qu'on peut obtenir la majeure partie de l'efficacité des SSM avec la précision de récupération de l'attention en utilisant l'attention avec parcimonie à des points stratégiques du réseau.

La pointe de la recherche

Mamba-3, la dernière génération, pousse l'architecture plus loin avec une formulation multi-input multi-output (MIMO) et des états à valeurs complexes via des encodages positionnels rotatifs. La récurrence utilise une règle d'intégration trapézoïdale pour une meilleure stabilité numérique, et l'architecture abandonne la couche de convolution causale que les versions antérieures utilisaient comme mécanisme de mélange à courte portée. Ce ne sont pas des ajustements incrémentaux — ils changent le profil de calcul suffisamment pour que des kernels Triton personnalisés soient nécessaires pour obtenir la pleine performance, et le package standard mamba-ssm sur PyPI ne les inclut pas encore. Si vous construisez sur les SSM aujourd'hui, attendez-vous à travailler plus près du métal qu'avec une pile Transformer mature. L'outillage rattrape son retard, mais on en est encore aux débuts du déploiement SSM en production.

Modèle d'espace d'états

Pourquoi c’est important

En profondeur

La percée Mamba

Le problème de la récupération

La pointe de la recherche

Concepts connexes