Zubnet AI学习Wiki › LSTM
模型

LSTM

别名:长短期记忆网络
一种专门设计用于学习序列数据中长程依赖关系的循环神经网络(RNN)。LSTM引入了“单元状态”——一条记忆高速公路,可以将信息不变地传递跨越许多时间步——由三个门控制:输入门(添加什么)、遗忘门(移除什么)和输出门(暴露什么)。发明于1997年,LSTM在Transformer出现之前主导了序列建模。

为什么重要

LSTM是2010年代NLP的支柱:机器翻译、语音识别、文本生成和情感分析都运行在LSTM上。理解LSTM有助于你理解为什么Transformer取代了它(并行性和长程注意力 vs. 顺序处理和压缩状态)以及为什么像Mamba这样的SSM令人感兴趣(它们以现代改进重新审视了门控状态的思想)。

深度解析

LSTM的三个门都是小型神经网络,输出0(完全阻塞)到1(完全通过)之间的值。遗忘门决定丢弃哪些单元状态信息。输入门决定添加哪些新信息。输出门决定将哪些单元状态信息作为隐藏状态暴露。这种门控机制让网络学习在长序列中记住什么和忘记什么——这是普通RNN做不到的。

为什么LSTM是革命性的

在LSTM之前,RNN受到梯度消失的困扰:序列早期的信息无法影响后期的处理,因为梯度在时间维度上指数衰减。LSTM的单元状态充当梯度高速公路——它可以在数百个步骤中不变地传递梯度。这使得序列到序列学习成为可能:机器翻译(编码源句子,解码目标句子)、文本摘要和问答都因LSTM而变得实用。

LSTM到Transformer到SSM

LSTM按顺序处理token(训练期间无法并行化)并将所有历史压缩到固定大小的隐藏状态中(信息瓶颈)。Transformer解决了这两个问题:并行训练和对任何token的直接注意力。但Transformer以序列长度的二次方内存成本为代价换取了这些优势。像Mamba这样的SSM重新审视了门控状态的思想:它们维护一个压缩状态(类似LSTM),但使门控依赖输入(选择性)且硬件高效,在获得LSTM的恒定内存优势的同时达到Transformer级别的质量。

相关概念

← 所有术语
← LoRA Luma AI →