Zubnet AI學習Wiki › Mamba
模型

Mamba

別名:選擇性狀態空間模型

由 Gu 和 Dao 提出的選擇性狀態空間模型。序列長度線性縮放,而非 Transformer 的二次方。壓縮的隱藏狀態會選擇性地更新 — 重要資訊被保留,無關的則衰減。

為什麼重要

對 Transformer 主導地位最有力的挑戰。如果線性時間能達到 Transformer 品質的結果,影響將是巨大的。混合架構(Jamba、Zamba)已經在出貨了。

深度解析

創新點:輸入相關的 B 和 C 矩陣(選擇性)。硬體感知的核心實作。Mamba-2:將 SSM 視為結構化注意力。混合架構交替堆疊 SSM 層和注意力層。

相關概念

← 所有術語