Inovação: matrizes B e C dependentes da entrada (seletividade). Implementação de kernel ciente do hardware. Mamba-2: SSM como atenção estruturada. Híbridos intercalam camadas SSM + atenção.
SSMs clássicos (S4, HIPPO) usam parâmetros fixos que tratam cada token igualmente. Mamba tornou as matrizes B e C dependentes da entrada — o modelo pode “decidir” o que preservar no estado e o que deixar decair. Isso deu ao SSM a capacidade de “prestar atenção” seletivamente, similar ao que a atenção faz nos Transformers.
Na prática, arquiteturas híbridas que combinam camadas Mamba com camadas de atenção (Jamba da AI21, Zamba da Zyphra) estão superando ambas as abordagens puras. A atenção é excelente para dependências exatas de longo alcance; SSMs são eficientes para processamento sequencial geral. Combinar ambos dá o melhor dos dois mundos.