State space models emprestam seu framework matemático da teoria de controle, onde SSMs têm sido usados por décadas para modelar sistemas dinâmicos. A ideia central é uma recorrência linear: o modelo mantém um estado oculto que é atualizado a cada passo de tempo por uma transformação linear aprendida, depois misturado com a entrada atual. Em tempo contínuo, isso é uma equação diferencial (dx/dt = Ax + Bu, y = Cx + Du). Discretizar dá uma recorrência que pode processar sequências token por token, atualizando um estado de tamanho fixo a cada passo. A parte elegante é que durante o treinamento, essa recorrência pode ser desenrolada em uma convolução, tornando-a paralelizável em GPUs assim como atenção. Durante a inferência, você volta para a forma de recorrência e processa tokens um por vez com memória constante — sem KV cache crescente.
Mamba (Albert Gu e Tri Dao, 2023) foi o avanço que tornou SSMs competitivos com Transformers em linguagem. SSMs anteriores como S4 e H3 usavam matrizes de transição de estado fixas, o que limitava sua capacidade de realizar raciocínio baseado em conteúdo — o modelo não podia mudar como processava um token com base no que aquele token era. Mamba introduziu state spaces seletivos, onde as matrizes A, B e C são funções da entrada. Isso permite ao modelo decidir, a cada token, quanto lembrar e quanto esquecer. Pense nisso como um mecanismo de gating aprendido e diferenciável, mas operando através da lente da recorrência linear em vez de atenção. O Mamba-2 posteriormente reformulou isso como structured state space duality (SSD), revelando que SSMs seletivos e atenção linear são matematicamente relacionados, e permitindo implementações GPU ainda mais rápidas via algoritmos baseados em multiplicação de matrizes.
As vantagens práticas são reais e mensuráveis. Durante a inferência, um Transformer deve armazenar pares key-value para cada token no contexto — esse KV cache cresce linearmente com o comprimento da sequência e é o principal gargalo para serving de contexto longo. Um SSM mantém um estado de tamanho fixo independentemente de quantos tokens já viu. Para um modelo com janela de contexto de 128K, essa diferença é enorme: o SSM usa a mesma memória gerando o token 128.001 que usou gerando o token 1. O throughput de treinamento também se beneficia em sequências longas porque o modo de parallel scan ou convolução escala linearmente com o comprimento da sequência, versus o escalonamento quadrático da atenção completa. Essas ganhos de eficiência são por que SSMs são particularmente atraentes para aplicações que precisam de contexto de longo alcance: análise de documentos, geração de código em repositórios grandes e streaming em tempo real onde tokens chegam continuamente.
Dito isso, SSMs têm limitações reais que o hype tende a ignorar. SSMs puros podem ter dificuldade com tarefas que exigem recuperação precisa de pontos anteriores no contexto — o problema "agulha no palheiro". Um Transformer pode, em princípio, atender diretamente a qualquer token passado através de seus pesos de atenção. Um SSM precisa ter comprimido a informação relevante em seu estado de tamanho fixo, e se não priorizou as coisas certas quando processou aquele token pela primeira vez, a informação se foi. É por isso que arquiteturas híbridas — intercalando camadas SSM com algumas camadas de atenção — estão ganhando tração. Jamba (da AI21) e vários híbridos de pesquisa mostraram que você pode obter a maior parte da eficiência dos SSMs com a precisão de recuperação da atenção usando atenção com parcimônia em pontos estratégicos da rede.
Mamba-3, a geração mais recente, leva a arquitetura adiante com uma formulação multi-input multi-output (MIMO) e estados de valor complexo via rotary position encodings. A recorrência usa uma regra de integração trapezoidal para melhor estabilidade numérica, e a arquitetura abandona a camada de convolução causal que versões anteriores usavam como mecanismo de mistura de curto alcance. Essas não são modificações incrementais — mudam o perfil computacional o suficiente para que kernels Triton customizados sejam necessários para obter performance total, e o pacote padrão mamba-ssm do PyPI não os inclui ainda. Se você está construindo sobre SSMs hoje, espere trabalhar mais próximo do metal do que faria com uma stack Transformer madura. As ferramentas estão acompanhando, mas ainda estão nos primeiros dias para implantação de SSM em produção.