Mamba: Definición y significado — Wiki de IA

Modelo de espacio de estados selectivo de Gu y Dao. Escalado lineal en longitud de secuencia vs el cuadrático del Transformer. Estado oculto comprimido que se actualiza selectivamente — la información importante se preserva, la irrelevante decae.

Por qué importa

El desafío más creíble a la dominancia del Transformer. Si se logra tiempo lineal con calidad equivalente al Transformer, las implicaciones son enormes. Arquitecturas híbridas (Jamba, Zamba) ya se están desplegando.

En profundidad

La innovación clave: matrices B y C dependientes de la entrada (selectividad). A diferencia de los SSMs anteriores donde los parámetros eran fijos, Mamba permite que el modelo decida qué información retener y qué olvidar basándose en el contenido actual. Combinado con una implementación de kernel optimizada para hardware (IO-aware), logra rendimiento competitivo con eficiencia superior.

Mamba-2

Mamba-2 reformula el SSM como una forma de atención estructurada, unificando teóricamente SSMs y Transformers. Esto no es solo elegancia matemática — permite usar las mismas optimizaciones de hardware desarrolladas para atención.

El camino híbrido

Los modelos híbridos intercalan capas SSM y capas de atención. Jamba (AI21) y Zamba son ejemplos. La idea: los SSMs son excelentes para flujo de información a largo plazo y eficiencia, mientras que la atención es excelente para tareas que requieren comparación directa entre posiciones distantes. Combinar ambos puede dar lo mejor de ambos mundos.

Mamba

Por qué importa

En profundidad

Mamba-2

El camino híbrido

Conceptos relacionados