Un RNN procesa una secuencia token por token, actualizando su estado oculto en cada paso: h_t = f(h_{t-1}, x_t). El estado oculto es una representación comprimida de todo lo visto hasta ahora. El problema: conforme las secuencias se alargan, el estado oculto debe comprimir cada vez más información en un vector de tamaño fijo, y las señales de gradiente para los tokens tempranos se desvanecen durante la retropropagación (el "problema del gradiente desvaneciente").
Long Short-Term Memory (LSTM, 1997) y Gated Recurrent Units (GRU, 2014) abordaron los gradientes desvanecientes introduciendo compuertas — mecanismos aprendidos que controlan qué información mantener, actualizar u olvidar. Los LSTMs tienen un estado de celda separado que puede transportar información sin cambios a través de muchos pasos, con compuertas controlando el acceso. Los GRUs simplifican los LSTMs fusionando el estado de celda y el oculto mientras mantienen un rendimiento similar.
Los RNNs procesan tokens secuencialmente — el token 5 no puede procesarse hasta que los tokens 1–4 estén listos. Esto los hace inherentemente lentos en hardware paralelo (GPUs). Los Transformers procesan todos los tokens simultáneamente usando atención, haciéndolos dramáticamente más rápidos para entrenar. La atención también conecta directamente cada token con todos los demás, resolviendo el problema de dependencias de largo alcance sin depender de un estado oculto comprimido. La compensación: los Transformers usan memoria cuadrática en la longitud de la secuencia, mientras que los RNNs usan memoria constante. Por eso los SSMs (Mamba) son interesantes — ofrecen eficiencia tipo RNN con rendimiento tipo Transformer.