LSTM : Définition et signification — Wiki IA

Un type de réseau de neurones récurrent (RNN) conçu pour apprendre les dépendances à longue portée dans les données séquentielles. Le LSTM introduit un « état de cellule » — une autoroute de mémoire qui peut transporter l'information inchangée sur de nombreux pas de temps — contrôlée par trois portes : une porte d'entrée (quoi ajouter), une porte d'oubli (quoi retirer) et une porte de sortie (quoi exposer). Inventé en 1997, le LSTM a dominé la modélisation de séquences jusqu'à l'arrivée des Transformers.

Pourquoi c'est important

Le LSTM a été la colonne vertébrale du NLP pendant une décennie (les années 2010) : traduction automatique, reconnaissance vocale, génération de texte et analyse de sentiment tournaient tous sur des LSTM. Comprendre le LSTM t'aide à comprendre pourquoi les Transformers l'ont remplacé (parallélisme et attention à longue portée vs. traitement séquentiel et état compressé) et pourquoi les SSM comme Mamba sont intéressants (ils revisitent l'idée d'état à portes avec des améliorations modernes).

En profondeur

Les trois portes du LSTM sont toutes de petits réseaux de neurones qui produisent des valeurs entre 0 (bloquer complètement) et 1 (laisser passer complètement). La porte d'oubli décide quelle information de l'état de cellule supprimer. La porte d'entrée décide quelle nouvelle information ajouter. La porte de sortie décide quelle information de l'état de cellule exposer comme l'état caché. Ce mécanisme de portes permet au réseau d'apprendre quoi retenir et quoi oublier sur de longues séquences — quelque chose que les RNN simples ne pouvaient pas faire.

Pourquoi les LSTM ont été révolutionnaires

Avant le LSTM, les RNN souffraient de la disparition des gradients : l'information du début d'une séquence ne pouvait pas influencer le traitement des parties ultérieures parce que les gradients décroissaient exponentiellement à travers le temps. L'état de cellule du LSTM agit comme une autoroute de gradients — il peut transporter les gradients inchangés à travers des centaines d'étapes. C'est ce qui a rendu l'apprentissage séquence-à-séquence possible : la traduction automatique (encoder la phrase source, décoder la phrase cible), le résumé de texte et la réponse aux questions sont tous devenus praticables avec les LSTM.

Du LSTM au Transformer au SSM

Les LSTM traitent les tokens séquentiellement (impossible de paralléliser pendant l'entraînement) et compriment tout l'historique dans un état caché de taille fixe (goulot d'étranglement d'information). Les Transformers résolvent les deux : entraînement parallèle et attention directe à n'importe quel token. Mais les Transformers échangent ces gains contre un coût mémoire quadratique en longueur de séquence. Les SSM comme Mamba revisitent l'idée d'état à portes : ils maintiennent un état comprimé (comme le LSTM) mais rendent les portes dépendantes de l'entrée (sélectives) et efficaces en matériel, obtenant l'avantage de mémoire constante du LSTM avec une qualité au niveau des Transformers.

LSTM

Pourquoi c'est important

En profondeur

Pourquoi les LSTM ont été révolutionnaires

Du LSTM au Transformer au SSM

Concepts connexes