一種專為學習序列資料中的長距離依賴而設計的遞迴神經網路(RNN)。LSTM 引入了一個「細胞狀態」 — 一條記憶高速公路,可以在多個時間步驟中不變地傳遞資訊 — 由三個閘門控制:輸入閘門(要添加什麼)、遺忘閘門(要移除什麼)和輸出閘門(要暴露什麼)。發明於 1997 年,LSTM 在 Transformer 出現之前主導了序列建模。
LSTM 是自然語言處理十年(2010 年代)的骨幹:機器翻譯、語音辨識、文本生成和情感分析都在 LSTM 上運行。理解 LSTM 有助於你理解為什麼 Transformer 取代了它(平行化和長距離注意力 vs. 序列處理和壓縮狀態),以及為什麼像 Mamba 這樣的 SSM 很有趣(它們以現代改進重新審視了閘門狀態的想法)。
LSTM 的三個閘門都是小型神經網路,輸出 0(完全阻擋)到 1(完全通過)之間的值。遺忘閘門決定丟棄哪些細胞狀態資訊。輸入閘門決定添加哪些新資訊。輸出閘門決定哪些細胞狀態資訊作為隱藏狀態暴露。這種閘門機制讓網路學習在長序列中記住什麼和忘記什麼 — 這是普通 RNN 無法做到的。
在 LSTM 之前,RNN 受到梯度消失的困擾:序列早期的資訊無法影響後期部分的處理,因為梯度通過時間指數衰減。LSTM 的細胞狀態充當梯度高速公路 — 它可以在數百個步驟中不變地傳遞梯度。這使得序列到序列學習成為可能:機器翻譯(編碼源句子,解碼目標句子)、文本摘要和問答系統都因 LSTM 而變得實用。
LSTM 按順序處理 token(在訓練期間無法平行化),並將所有歷史壓縮到固定大小的隱藏狀態中(資訊瓶頸)。Transformer 解決了兩者:平行訓練和對任何 token 的直接注意力。但 Transformer 以序列長度的二次方記憶體成本來換取這些收益。像 Mamba 這樣的 SSM 重新審視了閘門狀態的想法:它們維護壓縮狀態(像 LSTM)但使閘門與輸入相關(選擇性的)且硬體高效,以恆定記憶體的優勢獲得 Transformer 級別的品質。