RNN : Définition et signification — Wiki IA

Un réseau de neurones qui traite des séquences en maintenant un état caché qui est mis à jour à chaque étape — il « se souvient » de ce qu'il a vu jusqu'ici. Les LSTM et GRU sont des variantes améliorées qui résolvent la tendance du RNN original à oublier les dépendances à longue portée. Les RNN dominaient le NLP et la parole avant que les Transformers ne les remplacent vers 2018–2020.

Pourquoi c'est important

Les RNN sont les ancêtres des modèles de langage modernes. Comprendre pourquoi ils ont échoué (traitement séquentiel lent, difficulté avec les dépendances à longue portée) explique pourquoi les Transformers ont réussi (traitement parallèle, attention sur toutes les positions). L'architecture SSM/Mamba est, d'une certaine façon, un retour à l'idée du RNN avec des correctifs modernes.

En profondeur

Un RNN traite une séquence token par token, mettant à jour son état caché à chaque étape : h_t = f(h_{t-1}, x_t). L'état caché est une représentation compressée de tout ce qui a été vu jusqu'ici. Le problème : à mesure que les séquences s'allongent, l'état caché doit comprimer de plus en plus d'information dans un vecteur de taille fixe, et les signaux de gradient pour les premiers tokens disparaissent pendant la rétropropagation (le « problème du gradient qui s'évanouit »).

LSTM et GRU

Long Short-Term Memory (LSTM, 1997) et Gated Recurrent Units (GRU, 2014) ont résolu les gradients qui s'évanouissent en introduisant des portes — des mécanismes appris qui contrôlent quelle information garder, mettre à jour ou oublier. Les LSTM ont un état de cellule séparé qui peut transporter l'information sans changement sur de nombreuses étapes, avec des portes contrôlant l'accès. Les GRU simplifient les LSTM en fusionnant les états de cellule et caché tout en maintenant une performance similaire.

Pourquoi les Transformers ont gagné

Les RNN traitent les tokens séquentiellement — le token 5 ne peut pas être traité tant que les tokens 1–4 ne sont pas terminés. Cela les rend intrinsèquement lents sur du matériel parallèle (GPU). Les Transformers traitent tous les tokens simultanément grâce à l'attention, les rendant dramatiquement plus rapides à entraîner. L'attention connecte aussi directement chaque token à tous les autres, résolvant le problème des dépendances à longue portée sans dépendre d'un état caché compressé. Le compromis : les Transformers utilisent une mémoire quadratique en longueur de séquence, tandis que les RNN utilisent une mémoire constante. C'est pourquoi les SSM (Mamba) sont intéressants — ils offrent une efficacité de type RNN avec une performance de type Transformer.

RNN

Pourquoi c'est important

En profondeur

LSTM et GRU

Pourquoi les Transformers ont gagné

Concepts connexes