由Gu和Dao提出的选择性状态空间模型。序列长度线性扩展,而非Transformer的二次方。压缩的隐藏状态被选择性更新——重要信息被保留,无关信息衰减。
对Transformer主导地位最有力的挑战。如果能在线性时间内达到Transformer级别的质量,其影响将是巨大的。混合架构(Jamba、Zamba)已经在投入使用。
核心创新:输入依赖的B和C矩阵(选择性机制)。硬件感知的内核实现。Mamba-2:将SSM视为结构化注意力。混合架构交替使用SSM层和注意力层。