RNN：定義與含義 — AI 維基

一種透過維護在每一步更新的隱藏狀態來處理序列的神經網路——它「記住」迄今看到的內容。LSTM 和 GRU 是改進的變體，解決了原始 RNN 容易忘記長距離依賴關係的問題。在 2018 至 2020 年左右 Transformer 取代它們之前，RNN 主導了 NLP 和語音領域。

為什麼重要

RNN 是現代語言模型的祖先。理解它們為何失敗（緩慢的序列處理、長距離依賴的困難）可以解釋 Transformer 為何成功（平行處理、對所有位置的注意力）。SSM/Mamba 架構在某些方面是以現代修正回歸 RNN 理念的體現。

深度解析

RNN 逐 token 處理序列，在每一步更新其隱藏狀態：h_t = f(h_{t-1}, x_t)。隱藏狀態是迄今所見一切的壓縮表示。問題在於：隨著序列變長，隱藏狀態必須將越來越多的資訊壓縮到固定大小的向量中，而反向傳播時早期 token 的梯度信號會消失（「梯度消失問題」）。

LSTM 和 GRU

長短期記憶（LSTM，1997 年）和門控循環單元（GRU，2014 年）透過引入門控機制來解決梯度消失問題——這些是學習得來的機制，控制保留、更新或遺忘哪些資訊。LSTM 有一個獨立的記憶狀態，可以在許多步驟中不變地傳遞資訊，並由門控來控制存取。GRU 透過合併記憶狀態和隱藏狀態來簡化 LSTM，同時維持類似的效能。

Transformer 為何獲勝

RNN 按序列處理 token——token 5 必須等 token 1-4 處理完才能開始。這使它們在平行硬體（GPU）上速度天生就慢。Transformer 使用注意力機制同時處理所有 token，使訓練速度大幅加快。注意力也直接將每個 token 與其他所有 token 連接，無需依賴壓縮的隱藏狀態即可解決長距離依賴問題。代價是：Transformer 在序列長度上使用二次方記憶體，而 RNN 使用常數記憶體。這就是 SSM（Mamba）引人關注的原因——它們提供類似 RNN 的效率和類似 Transformer 的效能。

RNN

為什麼重要

深度解析

LSTM 和 GRU

Transformer 為何獲勝

相關概念