LSTM：定义与含义 — AI 维基

一种专门设计用于学习序列数据中长程依赖关系的循环神经网络（RNN）。LSTM引入了“单元状态”——一条记忆高速公路，可以将信息不变地传递跨越许多时间步——由三个门控制：输入门（添加什么）、遗忘门（移除什么）和输出门（暴露什么）。发明于1997年，LSTM在Transformer出现之前主导了序列建模。

为什么重要

LSTM是2010年代NLP的支柱：机器翻译、语音识别、文本生成和情感分析都运行在LSTM上。理解LSTM有助于你理解为什么Transformer取代了它（并行性和长程注意力 vs. 顺序处理和压缩状态）以及为什么像Mamba这样的SSM令人感兴趣（它们以现代改进重新审视了门控状态的思想）。

深度解析

LSTM的三个门都是小型神经网络，输出0（完全阻塞）到1（完全通过）之间的值。遗忘门决定丢弃哪些单元状态信息。输入门决定添加哪些新信息。输出门决定将哪些单元状态信息作为隐藏状态暴露。这种门控机制让网络学习在长序列中记住什么和忘记什么——这是普通RNN做不到的。

为什么LSTM是革命性的

在LSTM之前，RNN受到梯度消失的困扰：序列早期的信息无法影响后期的处理，因为梯度在时间维度上指数衰减。LSTM的单元状态充当梯度高速公路——它可以在数百个步骤中不变地传递梯度。这使得序列到序列学习成为可能：机器翻译（编码源句子，解码目标句子）、文本摘要和问答都因LSTM而变得实用。

LSTM到Transformer到SSM

LSTM按顺序处理token（训练期间无法并行化）并将所有历史压缩到固定大小的隐藏状态中（信息瓶颈）。Transformer解决了这两个问题：并行训练和对任何token的直接注意力。但Transformer以序列长度的二次方内存成本为代价换取了这些优势。像Mamba这样的SSM重新审视了门控状态的思想：它们维护一个压缩状态（类似LSTM），但使门控依赖输入（选择性）且硬件高效，在获得LSTM的恒定内存优势的同时达到Transformer级别的质量。

LSTM

为什么重要

深度解析

为什么LSTM是革命性的

LSTM到Transformer到SSM

相关概念