RNN：定义与含义 — AI 维基

一种通过维护隐藏状态来处理序列的神经网络，该隐藏状态在每一步都会更新——它“记住”到目前为止看到的内容。LSTM和GRU是改进的变体，解决了原始RNN容易遗忘长距离依赖的问题。在2018至2020年Transformer取代它们之前，RNN主导了NLP和语音识别领域。

为什么重要

RNN是现代语言模型的前身。理解它们为什么失败（缓慢的顺序处理、长距离依赖困难）可以解释Transformer为什么成功（并行处理、对所有位置的注意力）。SSM/Mamba架构在某种程度上是对RNN理念的回归，只是加入了现代的改进。

深度解析

RNN逐个token处理序列，在每一步更新其隐藏状态：h_t = f(h_{t-1}, x_t)。隐藏状态是到目前为止所有已见内容的压缩表示。问题在于：随着序列变长，隐藏状态必须将越来越多的信息压缩到固定大小的向量中，而反向传播过程中早期token的梯度信号会消失（“梯度消失问题”）。

LSTM和GRU

长短期记忆网络（LSTM，1997年）和门控循环单元（GRU，2014年）通过引入门机制来解决梯度消失问题——这些门是学习得到的机制，控制保留、更新或遗忘哪些信息。LSTM有一个单独的细胞状态，可以在多步之间不变地传递信息，由门控制访问。GRU通过合并细胞状态和隐藏状态来简化LSTM，同时保持类似的性能。

Transformer为何胜出

RNN顺序处理token——token 5必须等token 1-4处理完毕才能开始。这使得它们在并行硬件（GPU）上天生缓慢。Transformer使用注意力机制同时处理所有token，训练速度大幅提升。注意力还直接连接每个token与其他所有token，无需依赖压缩的隐藏状态即可解决长距离依赖问题。权衡在于：Transformer的内存使用量与序列长度呈二次方增长，而RNN使用常量内存。这就是SSM（Mamba）令人感兴趣的原因——它们提供了类似RNN的效率和类似Transformer的性能。

RNN

为什么重要

深度解析

LSTM和GRU

Transformer为何胜出

相关概念