由 Gu 和 Dao 提出的選擇性狀態空間模型。序列長度線性縮放,而非 Transformer 的二次方。壓縮的隱藏狀態會選擇性地更新 — 重要資訊被保留,無關的則衰減。
創新點:輸入相關的 B 和 C 矩陣(選擇性)。硬體感知的核心實作。Mamba-2:將 SSM 視為結構化注意力。混合架構交替堆疊 SSM 層和注意力層。