Zubnet AIAprenderWiki › RNN
Modelos

RNN

Red Neuronal Recurrente, LSTM, GRU
Una red neuronal que procesa secuencias manteniendo un estado oculto que se actualiza en cada paso — "recuerda" lo que ha visto hasta el momento. Los LSTMs y GRUs son variantes mejoradas que resuelven la tendencia del RNN original a olvidar dependencias de largo alcance. Los RNNs dominaron el NLP y el habla antes de que los Transformers los reemplazaran alrededor de 2018–2020.

Por qué importa

Los RNNs son los ancestros de los modelos de lenguaje modernos. Entender por qué fallaron (procesamiento secuencial lento, dificultad con dependencias de largo alcance) explica por qué los Transformers tuvieron éxito (procesamiento paralelo, atención sobre todas las posiciones). La arquitectura SSM/Mamba es, en cierto sentido, un retorno a la idea del RNN con correcciones modernas.

En profundidad

Un RNN procesa una secuencia token por token, actualizando su estado oculto en cada paso: h_t = f(h_{t-1}, x_t). El estado oculto es una representación comprimida de todo lo visto hasta ahora. El problema: conforme las secuencias se alargan, el estado oculto debe comprimir cada vez más información en un vector de tamaño fijo, y las señales de gradiente para los tokens tempranos se desvanecen durante la retropropagación (el "problema del gradiente desvaneciente").

LSTM y GRU

Long Short-Term Memory (LSTM, 1997) y Gated Recurrent Units (GRU, 2014) abordaron los gradientes desvanecientes introduciendo compuertas — mecanismos aprendidos que controlan qué información mantener, actualizar u olvidar. Los LSTMs tienen un estado de celda separado que puede transportar información sin cambios a través de muchos pasos, con compuertas controlando el acceso. Los GRUs simplifican los LSTMs fusionando el estado de celda y el oculto mientras mantienen un rendimiento similar.

Por qué Ganaron los Transformers

Los RNNs procesan tokens secuencialmente — el token 5 no puede procesarse hasta que los tokens 1–4 estén listos. Esto los hace inherentemente lentos en hardware paralelo (GPUs). Los Transformers procesan todos los tokens simultáneamente usando atención, haciéndolos dramáticamente más rápidos para entrenar. La atención también conecta directamente cada token con todos los demás, resolviendo el problema de dependencias de largo alcance sin depender de un estado oculto comprimido. La compensación: los Transformers usan memoria cuadrática en la longitud de la secuencia, mientras que los RNNs usan memoria constante. Por eso los SSMs (Mamba) son interesantes — ofrecen eficiencia tipo RNN con rendimiento tipo Transformer.

Conceptos relacionados

← Todos los términos
← RLHF Runway →
ESC