Las tres compuertas de LSTM son todas pequeñas redes neuronales que producen valores entre 0 (bloquear completamente) y 1 (dejar pasar completamente). La compuerta de olvido decide qué información del estado de celda descartar. La compuerta de entrada decide qué nueva información agregar. La compuerta de salida decide qué información del estado de celda exponer como el estado oculto. Este mecanismo de compuertas permite que la red aprenda qué recordar y qué olvidar a lo largo de secuencias largas — algo que las RNN convencionales no podían hacer.
Antes de LSTM, las RNNs sufrían de gradientes desvanecientes: la información del principio de una secuencia no podía influir en el procesamiento de partes posteriores porque los gradientes decaían exponencialmente a través del tiempo. El estado de celda de LSTM actúa como una autopista de gradientes — puede transportar gradientes sin cambios a lo largo de cientos de pasos. Esto es lo que habilitó el aprendizaje secuencia a secuencia: la traducción automática (codificar oración fuente, decodificar oración destino), el resumen de texto y la respuesta a preguntas se hicieron prácticos con LSTMs.
Las LSTMs procesan tokens secuencialmente (no se pueden paralelizar durante el entrenamiento) y comprimen todo el historial en un estado oculto de tamaño fijo (cuello de botella de información). Los Transformers resuelven ambos: entrenamiento paralelo y atención directa a cualquier token. Pero los Transformers intercambian estas ganancias por un costo de memoria cuadrático en la longitud de la secuencia. Los SSMs como Mamba revisitan la idea del estado con compuertas: mantienen un estado comprimido (como LSTM) pero hacen que las compuertas sean dependientes de la entrada (selectivas) y eficientes en hardware, obteniendo la ventaja de memoria constante de LSTM con calidad a nivel de Transformer.