Mamba：定义与含义 — AI 维基

由Gu和Dao提出的选择性状态空间模型。序列长度线性扩展，而非Transformer的二次方。压缩的隐藏状态被选择性更新——重要信息被保留，无关信息衰减。

为什么重要

对Transformer主导地位最有力的挑战。如果能在线性时间内达到Transformer级别的质量，其影响将是巨大的。混合架构（Jamba、Zamba）已经在投入使用。

核心创新：输入依赖的B和C矩阵（选择性机制）。硬件感知的内核实现。Mamba-2：将SSM视为结构化注意力。混合架构交替使用SSM层和注意力层。