Zubnet AI学习Wiki › Mamba
模型

Mamba

别名:选择性SSM

由Gu和Dao提出的选择性状态空间模型。序列长度线性扩展,而非Transformer的二次方。压缩的隐藏状态被选择性更新——重要信息被保留,无关信息衰减。

为什么重要

对Transformer主导地位最有力的挑战。如果能在线性时间内达到Transformer级别的质量,其影响将是巨大的。混合架构(Jamba、Zamba)已经在投入使用。

深度解析

核心创新:输入依赖的B和C矩阵(选择性机制)。硬件感知的内核实现。Mamba-2:将SSM视为结构化注意力。混合架构交替使用SSM层和注意力层。

相关概念

← 所有术语
← Luma AI MCP →