LSTM: Definición y significado — Wiki de IA

Un tipo de red neuronal recurrente (RNN) diseñado para aprender dependencias de largo alcance en datos secuenciales. LSTM introduce un "estado de celda" — una autopista de memoria que puede transportar información sin cambios a lo largo de muchos pasos temporales — controlada por tres compuertas: una compuerta de entrada (qué agregar), una compuerta de olvido (qué eliminar) y una compuerta de salida (qué exponer). Inventado en 1997, LSTM dominó el modelado de secuencias hasta que emergieron los Transformers.

Por qué importa

LSTM fue la columna vertebral del NLP durante una década (2010s): traducción automática, reconocimiento de voz, generación de texto y análisis de sentimiento, todos funcionaban con LSTMs. Entender LSTM te ayuda a comprender por qué los Transformers lo reemplazaron (paralelismo y atención de largo alcance vs. procesamiento secuencial y estado comprimido) y por qué los SSMs como Mamba son interesantes (revisitan la idea de estado con compuertas con mejoras modernas).

En profundidad

Las tres compuertas de LSTM son todas pequeñas redes neuronales que producen valores entre 0 (bloquear completamente) y 1 (dejar pasar completamente). La compuerta de olvido decide qué información del estado de celda descartar. La compuerta de entrada decide qué nueva información agregar. La compuerta de salida decide qué información del estado de celda exponer como el estado oculto. Este mecanismo de compuertas permite que la red aprenda qué recordar y qué olvidar a lo largo de secuencias largas — algo que las RNN convencionales no podían hacer.

Por qué las LSTMs fueron revolucionarias

Antes de LSTM, las RNNs sufrían de gradientes desvanecientes: la información del principio de una secuencia no podía influir en el procesamiento de partes posteriores porque los gradientes decaían exponencialmente a través del tiempo. El estado de celda de LSTM actúa como una autopista de gradientes — puede transportar gradientes sin cambios a lo largo de cientos de pasos. Esto es lo que habilitó el aprendizaje secuencia a secuencia: la traducción automática (codificar oración fuente, decodificar oración destino), el resumen de texto y la respuesta a preguntas se hicieron prácticos con LSTMs.

De LSTM a Transformer a SSM

Las LSTMs procesan tokens secuencialmente (no se pueden paralelizar durante el entrenamiento) y comprimen todo el historial en un estado oculto de tamaño fijo (cuello de botella de información). Los Transformers resuelven ambos: entrenamiento paralelo y atención directa a cualquier token. Pero los Transformers intercambian estas ganancias por un costo de memoria cuadrático en la longitud de la secuencia. Los SSMs como Mamba revisitan la idea del estado con compuertas: mantienen un estado comprimido (como LSTM) pero hacen que las compuertas sean dependientes de la entrada (selectivas) y eficientes en hardware, obteniendo la ventaja de memoria constante de LSTM con calidad a nivel de Transformer.

LSTM

Por qué importa

En profundidad

Por qué las LSTMs fueron revolucionarias

De LSTM a Transformer a SSM

Conceptos relacionados