LSTM的三个门都是小型神经网络,输出0(完全阻塞)到1(完全通过)之间的值。遗忘门决定丢弃哪些单元状态信息。输入门决定添加哪些新信息。输出门决定将哪些单元状态信息作为隐藏状态暴露。这种门控机制让网络学习在长序列中记住什么和忘记什么——这是普通RNN做不到的。
在LSTM之前,RNN受到梯度消失的困扰:序列早期的信息无法影响后期的处理,因为梯度在时间维度上指数衰减。LSTM的单元状态充当梯度高速公路——它可以在数百个步骤中不变地传递梯度。这使得序列到序列学习成为可能:机器翻译(编码源句子,解码目标句子)、文本摘要和问答都因LSTM而变得实用。
LSTM按顺序处理token(训练期间无法并行化)并将所有历史压缩到固定大小的隐藏状态中(信息瓶颈)。Transformer解决了这两个问题:并行训练和对任何token的直接注意力。但Transformer以序列长度的二次方内存成本为代价换取了这些优势。像Mamba这样的SSM重新审视了门控状态的思想:它们维护一个压缩状态(类似LSTM),但使门控依赖输入(选择性)且硬件高效,在获得LSTM的恒定内存优势的同时达到Transformer级别的质量。