Zubnet AIAprenderWiki › Mamba
Modelos

Mamba

También conocido como: SSM selectivo, Selective SSM
Modelo de espacio de estados selectivo de Gu y Dao. Escalado lineal en longitud de secuencia vs el cuadrático del Transformer. Estado oculto comprimido que se actualiza selectivamente — la información importante se preserva, la irrelevante decae.

Por qué importa

El desafío más creíble a la dominancia del Transformer. Si se logra tiempo lineal con calidad equivalente al Transformer, las implicaciones son enormes. Arquitecturas híbridas (Jamba, Zamba) ya se están desplegando.

En profundidad

La innovación clave: matrices B y C dependientes de la entrada (selectividad). A diferencia de los SSMs anteriores donde los parámetros eran fijos, Mamba permite que el modelo decida qué información retener y qué olvidar basándose en el contenido actual. Combinado con una implementación de kernel optimizada para hardware (IO-aware), logra rendimiento competitivo con eficiencia superior.

Mamba-2

Mamba-2 reformula el SSM como una forma de atención estructurada, unificando teóricamente SSMs y Transformers. Esto no es solo elegancia matemática — permite usar las mismas optimizaciones de hardware desarrolladas para atención.

El camino híbrido

Los modelos híbridos intercalan capas SSM y capas de atención. Jamba (AI21) y Zamba son ejemplos. La idea: los SSMs son excelentes para flujo de información a largo plazo y eficiencia, mientras que la atención es excelente para tareas que requieren comparación directa entre posiciones distantes. Combinar ambos puede dar lo mejor de ambos mundos.

Conceptos relacionados

← Todos los términos
← Luma AI Marca de agua →