Zubnet AI學習Wiki › RNN
模型

RNN

別名:遞迴神經網路、LSTM、GRU
一種透過維護在每一步更新的隱藏狀態來處理序列的神經網路——它「記住」迄今看到的內容。LSTM 和 GRU 是改進的變體,解決了原始 RNN 容易忘記長距離依賴關係的問題。在 2018 至 2020 年左右 Transformer 取代它們之前,RNN 主導了 NLP 和語音領域。

為什麼重要

RNN 是現代語言模型的祖先。理解它們為何失敗(緩慢的序列處理、長距離依賴的困難)可以解釋 Transformer 為何成功(平行處理、對所有位置的注意力)。SSM/Mamba 架構在某些方面是以現代修正回歸 RNN 理念的體現。

深度解析

RNN 逐 token 處理序列,在每一步更新其隱藏狀態:h_t = f(h_{t-1}, x_t)。隱藏狀態是迄今所見一切的壓縮表示。問題在於:隨著序列變長,隱藏狀態必須將越來越多的資訊壓縮到固定大小的向量中,而反向傳播時早期 token 的梯度信號會消失(「梯度消失問題」)。

LSTM 和 GRU

長短期記憶(LSTM,1997 年)和門控循環單元(GRU,2014 年)透過引入門控機制來解決梯度消失問題——這些是學習得來的機制,控制保留、更新或遺忘哪些資訊。LSTM 有一個獨立的記憶狀態,可以在許多步驟中不變地傳遞資訊,並由門控來控制存取。GRU 透過合併記憶狀態和隱藏狀態來簡化 LSTM,同時維持類似的效能。

Transformer 為何獲勝

RNN 按序列處理 token——token 5 必須等 token 1-4 處理完才能開始。這使它們在平行硬體(GPU)上速度天生就慢。Transformer 使用注意力機制同時處理所有 token,使訓練速度大幅加快。注意力也直接將每個 token 與其他所有 token 連接,無需依賴壓縮的隱藏狀態即可解決長距離依賴問題。代價是:Transformer 在序列長度上使用二次方記憶體,而 RNN 使用常數記憶體。這就是 SSM(Mamba)引人關注的原因——它們提供類似 RNN 的效率和類似 Transformer 的效能。

相關概念

← 所有術語
← RLHF Runway →
ESC