LSTM: Definição e significado — Wiki de IA

Um tipo de rede neural recorrente (RNN) projetada para aprender dependências de longo alcance em dados sequenciais. LSTM introduz um "estado de célula" — uma via expressa de memória que pode transportar informação inalterada ao longo de muitos passos de tempo — controlada por três portões: um portão de entrada (o que adicionar), um portão de esquecimento (o que remover) e um portão de saída (o que expor). Inventada em 1997, LSTM dominou a modelagem de sequências até os Transformers emergirem.

Por que isso importa

LSTM foi a espinha dorsal de NLP por uma década (anos 2010): tradução automática, reconhecimento de fala, geração de texto e análise de sentimento todos rodavam em LSTMs. Entender LSTM ajuda a compreender por que Transformers o substituíram (paralelismo e atenção de longo alcance vs. processamento sequencial e estado comprimido) e por que SSMs como Mamba são interessantes (eles revisitam a ideia de estado com portões com melhorias modernas).

Em profundidade

Os três portões do LSTM são todos pequenas redes neurais que produzem valores entre 0 (bloquear completamente) e 1 (passar completamente). O portão de esquecimento decide qual informação do estado da célula descartar. O portão de entrada decide qual informação nova adicionar. O portão de saída decide qual informação do estado da célula expor como o estado oculto. Esse mecanismo de portões permite que a rede aprenda o que lembrar e o que esquecer ao longo de sequências longas — algo que RNNs vanilla não conseguiam fazer.

Por Que LSTMs Foram Revolucionárias

Antes do LSTM, RNNs sofriam com gradientes que desapareciam: informação do início de uma sequência não conseguia influenciar o processamento de partes posteriores porque os gradientes decaíam exponencialmente ao longo do tempo. O estado de célula do LSTM age como uma via expressa de gradientes — pode transportar gradientes inalterados por centenas de passos. Isso permitiu o aprendizado sequência-para-sequência: tradução automática (codificar sentença fonte, decodificar sentença alvo), sumarização de texto e question answering, todos se tornaram práticos com LSTMs.

LSTM para Transformer para SSM

LSTMs processam tokens sequencialmente (não podem paralelizar durante o treinamento) e comprimem todo o histórico em um estado oculto de tamanho fixo (gargalo de informação). Transformers resolvem ambos: treinamento paralelo e atenção direta a qualquer token. Mas Transformers trocam esses ganhos por custo de memória quadrático no comprimento da sequência. SSMs como Mamba revisitam a ideia de estado com portões: eles mantêm um estado comprimido (como LSTM) mas tornam os portões dependentes da entrada (seletivos) e eficientes em hardware, obtendo a vantagem de memória constante do LSTM com qualidade no nível do Transformer.

LSTM

Por que isso importa

Em profundidade

Por Que LSTMs Foram Revolucionárias

LSTM para Transformer para SSM

Conceitos relacionados