Un RNN traite une séquence token par token, mettant à jour son état caché à chaque étape : h_t = f(h_{t-1}, x_t). L'état caché est une représentation compressée de tout ce qui a été vu jusqu'ici. Le problème : à mesure que les séquences s'allongent, l'état caché doit comprimer de plus en plus d'information dans un vecteur de taille fixe, et les signaux de gradient pour les premiers tokens disparaissent pendant la rétropropagation (le « problème du gradient qui s'évanouit »).
Long Short-Term Memory (LSTM, 1997) et Gated Recurrent Units (GRU, 2014) ont résolu les gradients qui s'évanouissent en introduisant des portes — des mécanismes appris qui contrôlent quelle information garder, mettre à jour ou oublier. Les LSTM ont un état de cellule séparé qui peut transporter l'information sans changement sur de nombreuses étapes, avec des portes contrôlant l'accès. Les GRU simplifient les LSTM en fusionnant les états de cellule et caché tout en maintenant une performance similaire.
Les RNN traitent les tokens séquentiellement — le token 5 ne peut pas être traité tant que les tokens 1–4 ne sont pas terminés. Cela les rend intrinsèquement lents sur du matériel parallèle (GPU). Les Transformers traitent tous les tokens simultanément grâce à l'attention, les rendant dramatiquement plus rapides à entraîner. L'attention connecte aussi directement chaque token à tous les autres, résolvant le problème des dépendances à longue portée sans dépendre d'un état caché compressé. Le compromis : les Transformers utilisent une mémoire quadratique en longueur de séquence, tandis que les RNN utilisent une mémoire constante. C'est pourquoi les SSM (Mamba) sont intéressants — ils offrent une efficacité de type RNN avec une performance de type Transformer.