Les trois portes du LSTM sont toutes de petits réseaux de neurones qui produisent des valeurs entre 0 (bloquer complètement) et 1 (laisser passer complètement). La porte d'oubli décide quelle information de l'état de cellule supprimer. La porte d'entrée décide quelle nouvelle information ajouter. La porte de sortie décide quelle information de l'état de cellule exposer comme l'état caché. Ce mécanisme de portes permet au réseau d'apprendre quoi retenir et quoi oublier sur de longues séquences — quelque chose que les RNN simples ne pouvaient pas faire.
Avant le LSTM, les RNN souffraient de la disparition des gradients : l'information du début d'une séquence ne pouvait pas influencer le traitement des parties ultérieures parce que les gradients décroissaient exponentiellement à travers le temps. L'état de cellule du LSTM agit comme une autoroute de gradients — il peut transporter les gradients inchangés à travers des centaines d'étapes. C'est ce qui a rendu l'apprentissage séquence-à-séquence possible : la traduction automatique (encoder la phrase source, décoder la phrase cible), le résumé de texte et la réponse aux questions sont tous devenus praticables avec les LSTM.
Les LSTM traitent les tokens séquentiellement (impossible de paralléliser pendant l'entraînement) et compriment tout l'historique dans un état caché de taille fixe (goulot d'étranglement d'information). Les Transformers résolvent les deux : entraînement parallèle et attention directe à n'importe quel token. Mais les Transformers échangent ces gains contre un coût mémoire quadratique en longueur de séquence. Les SSM comme Mamba revisitent l'idée d'état à portes : ils maintiennent un état comprimé (comme le LSTM) mais rendent les portes dépendantes de l'entrée (sélectives) et efficaces en matériel, obtenant l'avantage de mémoire constante du LSTM avec une qualité au niveau des Transformers.