Los modelos de espacio de estados toman prestado su marco matematico de la teoria de control, donde los SSMs se han usado durante decadas para modelar sistemas dinamicos. La idea central es una recurrencia lineal: el modelo mantiene un estado oculto que se actualiza en cada paso temporal mediante una transformacion lineal aprendida, y luego se mezcla con la entrada actual. En tiempo continuo, esto es una ecuacion diferencial (dx/dt = Ax + Bu, y = Cx + Du). Discretizarla te da una recurrencia que puede procesar secuencias token por token, actualizando un estado de tamano fijo en cada paso. La parte elegante es que durante el entrenamiento, esta recurrencia puede desplegarse en una convolucion, haciendola paralelizable en GPUs igual que la atencion. Durante la inferencia, vuelves a la forma de recurrencia y procesas tokens uno a la vez con memoria constante — sin un KV cache que crece.
Mamba (Albert Gu y Tri Dao, 2023) fue el avance que hizo a los SSMs competitivos con los Transformers en lenguaje. Los SSMs anteriores como S4 y H3 usaban matrices de transicion de estado fijas, lo que limitaba su capacidad para realizar razonamiento basado en contenido — el modelo no podia cambiar como procesaba un token basandose en lo que ese token era. Mamba introdujo espacios de estados selectivos, donde las matrices A, B y C son funciones de la entrada. Esto permite que el modelo decida, en cada token, cuanto recordar y cuanto olvidar. Piensa en ello como un mecanismo de compuerta aprendido y diferenciable, pero operando a traves del lente de la recurrencia lineal en lugar de la atencion. Mamba-2 luego reformulo esto como dualidad de espacio de estados estructurado (SSD), revelando que los SSMs selectivos y la atencion lineal estan matematicamente relacionados, y permitiendo implementaciones GPU aun mas rapidas mediante algoritmos basados en multiplicacion de matrices.
Las ventajas practicas son reales y medibles. Durante la inferencia, un Transformer debe almacenar pares clave-valor para cada token en el contexto — ese KV cache crece linealmente con la longitud de la secuencia y es el principal cuello de botella para servir contextos largos. Un SSM mantiene un estado de tamano fijo sin importar cuantos tokens haya visto. Para un modelo con una ventana de contexto de 128K, esta diferencia es enorme: el SSM usa la misma memoria generando el token 128,001 que al generar el token 1. El throughput de entrenamiento tambien se beneficia en secuencias largas porque el modo de scan paralelo o convolucion escala linealmente con la longitud de la secuencia, versus el escalado cuadratico de la atencion completa. Estas ganancias de eficiencia son la razon por la que los SSMs son particularmente atractivos para aplicaciones que necesitan contexto de largo alcance: analisis de documentos, generacion de codigo en repositorios grandes y streaming en tiempo real donde los tokens llegan continuamente.
Dicho esto, los SSMs tienen limitaciones reales que el entusiasmo tiende a pasar por alto. Los SSMs puros pueden tener dificultades con tareas que requieren recuperacion precisa de informacion anterior en el contexto — el problema de la "aguja en el pajar". Un Transformer puede, en principio, atender directamente a cualquier token pasado a traves de sus pesos de atencion. Un SSM debe haber comprimido la informacion relevante en su estado de tamano fijo, y si no priorizo las cosas correctas cuando proceso originalmente ese token, la informacion se perdio. Por eso las arquitecturas hibridas — intercalando capas SSM con unas pocas capas de atencion — estan ganando traccion. Jamba (de AI21) y varios hibridos de investigacion han demostrado que se puede obtener la mayor parte de la eficiencia de los SSMs con la precision de recuperacion de la atencion usando atencion de forma moderada en puntos estrategicos de la red.
Mamba-3, la generacion mas reciente, lleva la arquitectura mas alla con una formulacion multi-entrada multi-salida (MIMO) y estados de valor complejo via codificaciones de posicion rotatorias. La recurrencia usa una regla de integracion trapezoidal para mejor estabilidad numerica, y la arquitectura elimina la capa de convolucion causal que las versiones anteriores usaban como mecanismo de mezcla de corto alcance. Estos no son ajustes incrementales — cambian el perfil computacional lo suficiente como para que se necesiten kernels personalizados de Triton para obtener rendimiento completo, y el paquete estandar de mamba-ssm en PyPI aun no los incluye. Si estas construyendo sobre SSMs hoy, espera trabajar mas cerca del metal de lo que lo harias con un stack de Transformer maduro. Las herramientas estan avanzando, pero aun son dias tempranos para el despliegue de SSMs en produccion.