Zubnet AIApprendreWiki › RNN
Models

RNN

Recurrent Neural Network, LSTM, GRU
Un réseau de neurones qui traite les séquences en maintenant un état caché qui est mis à jour à chaque étape — il « se souvient » de ce qu'il a vu jusqu'ici. Les LSTM et les GRU sont des variantes améliorées qui règlent la tendance du RNN original à oublier les dépendances à longue portée. Les RNN ont dominé le NLP et la reconnaissance vocale avant que les Transformers les remplacent vers 2018–2020.

Pourquoi c'est important

Les RNN sont les ancêtres des modèles de langage modernes. Comprendre pourquoi ils ont échoué (traitement séquentiel lent, difficulté avec les dépendances à longue portée) explique pourquoi les Transformers ont réussi (traitement parallèle, attention sur toutes les positions). L'architecture SSM/Mamba est, d'une certaine façon, un retour à l'idée du RNN avec des correctifs modernes.

Deep Dive

An RNN processes a sequence token by token, updating its hidden state at each step: h_t = f(h_{t-1}, x_t). The hidden state is a compressed representation of everything seen so far. The problem: as sequences get longer, the hidden state must compress more and more information into a fixed-size vector, and gradient signals for early tokens vanish during backpropagation (the "vanishing gradient problem").

LSTM and GRU

Long Short-Term Memory (LSTM, 1997) and Gated Recurrent Units (GRU, 2014) addressed vanishing gradients by introducing gates — learned mechanisms that control what information to keep, update, or forget. LSTMs have a separate cell state that can carry information unchanged across many steps, with gates controlling access. GRUs simplify LSTMs by merging the cell and hidden states while maintaining similar performance.

Why Transformers Won

RNNs process tokens sequentially — token 5 can't be processed until tokens 1–4 are done. This makes them inherently slow on parallel hardware (GPUs). Transformers process all tokens simultaneously using attention, making them dramatically faster to train. Attention also directly connects every token to every other token, solving the long-range dependency problem without relying on a compressed hidden state. The trade-off: Transformers use quadratic memory in sequence length, while RNNs use constant memory. This is why SSMs (Mamba) are interesting — they offer RNN-like efficiency with Transformer-like performance.

Concepts liés

← Tous les termes
← RLHF Runway →