Zubnet AIApprendreWiki › LSTM
Models

LSTM

Long Short-Term Memory
Un type de réseau de neurones récurrent (RNN) conçu pour apprendre des dépendances à longue portée dans des données séquentielles. Le LSTM introduit un « cell state » — une autoroute de mémoire qui peut transporter de l'info sans la changer à travers beaucoup d'étapes de temps — contrôlée par trois gates : une input gate (quoi ajouter), une forget gate (quoi enlever) et une output gate (quoi exposer). Inventé en 1997, le LSTM a dominé la modélisation de séquences jusqu'à l'émergence des Transformers.

Pourquoi c'est important

Le LSTM a été la colonne vertébrale du NLP pendant une décennie (les années 2010) : traduction automatique, reconnaissance vocale, génération de texte et analyse de sentiment tournaient tous sur des LSTM. Comprendre le LSTM t'aide à comprendre pourquoi les Transformers l'ont remplacé (parallélisme et attention à longue portée vs. traitement séquentiel et état compressé) et pourquoi les SSM comme Mamba sont intéressants (ils revisitent l'idée d'état gatifié avec des améliorations modernes).

Deep Dive

LSTM's three gates are all small neural networks that output values between 0 (completely block) and 1 (completely pass through). The forget gate decides which cell state information to discard. The input gate decides which new information to add. The output gate decides which cell state information to expose as the hidden state. This gating mechanism lets the network learn what to remember and what to forget over long sequences — something vanilla RNNs couldn't do.

Why LSTMs Were Revolutionary

Before LSTM, RNNs suffered from vanishing gradients: information from early in a sequence couldn't influence processing of later parts because gradients decayed exponentially through time. LSTM's cell state acts as a gradient highway — it can carry gradients unchanged through hundreds of steps. This is what enabled sequence-to-sequence learning: machine translation (encode source sentence, decode target sentence), text summarization, and question answering all became practical with LSTMs.

LSTM to Transformer to SSM

LSTMs process tokens sequentially (can't parallelize during training) and compress all history into a fixed-size hidden state (information bottleneck). Transformers solve both: parallel training and direct attention to any token. But Transformers trade these gains for quadratic memory cost in sequence length. SSMs like Mamba revisit the gated-state idea: they maintain a compressed state (like LSTM) but make the gates input-dependent (selective) and hardware-efficient, getting LSTM's constant-memory advantage with Transformer-level quality.

Concepts liés

← Tous les termes
← Loss Function Luma AI →