La innovación clave: matrices B y C dependientes de la entrada (selectividad). A diferencia de los SSMs anteriores donde los parámetros eran fijos, Mamba permite que el modelo decida qué información retener y qué olvidar basándose en el contenido actual. Combinado con una implementación de kernel optimizada para hardware (IO-aware), logra rendimiento competitivo con eficiencia superior.
Mamba-2 reformula el SSM como una forma de atención estructurada, unificando teóricamente SSMs y Transformers. Esto no es solo elegancia matemática — permite usar las mismas optimizaciones de hardware desarrolladas para atención.
Los modelos híbridos intercalan capas SSM y capas de atención. Jamba (AI21) y Zamba son ejemplos. La idea: los SSMs son excelentes para flujo de información a largo plazo y eficiencia, mientras que la atención es excelente para tareas que requieren comparación directa entre posiciones distantes. Combinar ambos puede dar lo mejor de ambos mundos.