LSTM：定義與含義 — AI 維基

一種專為學習序列資料中的長距離依賴而設計的遞迴神經網路（RNN）。LSTM 引入了一個「細胞狀態」 — 一條記憶高速公路，可以在多個時間步驟中不變地傳遞資訊 — 由三個閘門控制：輸入閘門（要添加什麼）、遺忘閘門（要移除什麼）和輸出閘門（要暴露什麼）。發明於 1997 年，LSTM 在 Transformer 出現之前主導了序列建模。

為什麼重要

LSTM 是自然語言處理十年（2010 年代）的骨幹：機器翻譯、語音辨識、文本生成和情感分析都在 LSTM 上運行。理解 LSTM 有助於你理解為什麼 Transformer 取代了它（平行化和長距離注意力 vs. 序列處理和壓縮狀態），以及為什麼像 Mamba 這樣的 SSM 很有趣（它們以現代改進重新審視了閘門狀態的想法）。

深度解析

LSTM 的三個閘門都是小型神經網路，輸出 0（完全阻擋）到 1（完全通過）之間的值。遺忘閘門決定丟棄哪些細胞狀態資訊。輸入閘門決定添加哪些新資訊。輸出閘門決定哪些細胞狀態資訊作為隱藏狀態暴露。這種閘門機制讓網路學習在長序列中記住什麼和忘記什麼 — 這是普通 RNN 無法做到的。

為什麼 LSTM 是革命性的

在 LSTM 之前，RNN 受到梯度消失的困擾：序列早期的資訊無法影響後期部分的處理，因為梯度通過時間指數衰減。LSTM 的細胞狀態充當梯度高速公路 — 它可以在數百個步驟中不變地傳遞梯度。這使得序列到序列學習成為可能：機器翻譯（編碼源句子，解碼目標句子）、文本摘要和問答系統都因 LSTM 而變得實用。

LSTM 到 Transformer 到 SSM

LSTM 按順序處理 token（在訓練期間無法平行化），並將所有歷史壓縮到固定大小的隱藏狀態中（資訊瓶頸）。Transformer 解決了兩者：平行訓練和對任何 token 的直接注意力。但 Transformer 以序列長度的二次方記憶體成本來換取這些收益。像 Mamba 這樣的 SSM 重新審視了閘門狀態的想法：它們維護壓縮狀態（像 LSTM）但使閘門與輸入相關（選擇性的）且硬體高效，以恆定記憶體的優勢獲得 Transformer 級別的品質。

LSTM

為什麼重要

深度解析

為什麼 LSTM 是革命性的

LSTM 到 Transformer 到 SSM

相關概念