Os três portões do LSTM são todos pequenas redes neurais que produzem valores entre 0 (bloquear completamente) e 1 (passar completamente). O portão de esquecimento decide qual informação do estado da célula descartar. O portão de entrada decide qual informação nova adicionar. O portão de saída decide qual informação do estado da célula expor como o estado oculto. Esse mecanismo de portões permite que a rede aprenda o que lembrar e o que esquecer ao longo de sequências longas — algo que RNNs vanilla não conseguiam fazer.
Antes do LSTM, RNNs sofriam com gradientes que desapareciam: informação do início de uma sequência não conseguia influenciar o processamento de partes posteriores porque os gradientes decaíam exponencialmente ao longo do tempo. O estado de célula do LSTM age como uma via expressa de gradientes — pode transportar gradientes inalterados por centenas de passos. Isso permitiu o aprendizado sequência-para-sequência: tradução automática (codificar sentença fonte, decodificar sentença alvo), sumarização de texto e question answering, todos se tornaram práticos com LSTMs.
LSTMs processam tokens sequencialmente (não podem paralelizar durante o treinamento) e comprimem todo o histórico em um estado oculto de tamanho fixo (gargalo de informação). Transformers resolvem ambos: treinamento paralelo e atenção direta a qualquer token. Mas Transformers trocam esses ganhos por custo de memória quadrático no comprimento da sequência. SSMs como Mamba revisitam a ideia de estado com portões: eles mantêm um estado comprimido (como LSTM) mas tornam os portões dependentes da entrada (seletivos) e eficientes em hardware, obtendo a vantagem de memória constante do LSTM com qualidade no nível do Transformer.