Zubnet AI学习Wiki › RNN
模型

RNN

别名:循环神经网络、LSTM、GRU
一种通过维护隐藏状态来处理序列的神经网络,该隐藏状态在每一步都会更新——它“记住”到目前为止看到的内容。LSTM和GRU是改进的变体,解决了原始RNN容易遗忘长距离依赖的问题。在2018至2020年Transformer取代它们之前,RNN主导了NLP和语音识别领域。

为什么重要

RNN是现代语言模型的前身。理解它们为什么失败(缓慢的顺序处理、长距离依赖困难)可以解释Transformer为什么成功(并行处理、对所有位置的注意力)。SSM/Mamba架构在某种程度上是对RNN理念的回归,只是加入了现代的改进。

深度解析

RNN逐个token处理序列,在每一步更新其隐藏状态:h_t = f(h_{t-1}, x_t)。隐藏状态是到目前为止所有已见内容的压缩表示。问题在于:随着序列变长,隐藏状态必须将越来越多的信息压缩到固定大小的向量中,而反向传播过程中早期token的梯度信号会消失(“梯度消失问题”)。

LSTM和GRU

长短期记忆网络(LSTM,1997年)和门控循环单元(GRU,2014年)通过引入门机制来解决梯度消失问题——这些门是学习得到的机制,控制保留、更新或遗忘哪些信息。LSTM有一个单独的细胞状态,可以在多步之间不变地传递信息,由门控制访问。GRU通过合并细胞状态和隐藏状态来简化LSTM,同时保持类似的性能。

Transformer为何胜出

RNN顺序处理token——token 5必须等token 1-4处理完毕才能开始。这使得它们在并行硬件(GPU)上天生缓慢。Transformer使用注意力机制同时处理所有token,训练速度大幅提升。注意力还直接连接每个token与其他所有token,无需依赖压缩的隐藏状态即可解决长距离依赖问题。权衡在于:Transformer的内存使用量与序列长度呈二次方增长,而RNN使用常量内存。这就是SSM(Mamba)令人感兴趣的原因——它们提供了类似RNN的效率和类似Transformer的性能。

相关概念

← 所有术语
← RLHF Runway →