Zubnet AIAprenderWiki › LSTM
Modelos

LSTM

Também conhecido como: Long Short-Term Memory, Memória de Longo-Curto Prazo
Um tipo de rede neural recorrente (RNN) projetada para aprender dependências de longo alcance em dados sequenciais. LSTM introduz um "estado de célula" — uma via expressa de memória que pode transportar informação inalterada ao longo de muitos passos de tempo — controlada por três portões: um portão de entrada (o que adicionar), um portão de esquecimento (o que remover) e um portão de saída (o que expor). Inventada em 1997, LSTM dominou a modelagem de sequências até os Transformers emergirem.

Por que isso importa

LSTM foi a espinha dorsal de NLP por uma década (anos 2010): tradução automática, reconhecimento de fala, geração de texto e análise de sentimento todos rodavam em LSTMs. Entender LSTM ajuda a compreender por que Transformers o substituíram (paralelismo e atenção de longo alcance vs. processamento sequencial e estado comprimido) e por que SSMs como Mamba são interessantes (eles revisitam a ideia de estado com portões com melhorias modernas).

Em profundidade

Os três portões do LSTM são todos pequenas redes neurais que produzem valores entre 0 (bloquear completamente) e 1 (passar completamente). O portão de esquecimento decide qual informação do estado da célula descartar. O portão de entrada decide qual informação nova adicionar. O portão de saída decide qual informação do estado da célula expor como o estado oculto. Esse mecanismo de portões permite que a rede aprenda o que lembrar e o que esquecer ao longo de sequências longas — algo que RNNs vanilla não conseguiam fazer.

Por Que LSTMs Foram Revolucionárias

Antes do LSTM, RNNs sofriam com gradientes que desapareciam: informação do início de uma sequência não conseguia influenciar o processamento de partes posteriores porque os gradientes decaíam exponencialmente ao longo do tempo. O estado de célula do LSTM age como uma via expressa de gradientes — pode transportar gradientes inalterados por centenas de passos. Isso permitiu o aprendizado sequência-para-sequência: tradução automática (codificar sentença fonte, decodificar sentença alvo), sumarização de texto e question answering, todos se tornaram práticos com LSTMs.

LSTM para Transformer para SSM

LSTMs processam tokens sequencialmente (não podem paralelizar durante o treinamento) e comprimem todo o histórico em um estado oculto de tamanho fixo (gargalo de informação). Transformers resolvem ambos: treinamento paralelo e atenção direta a qualquer token. Mas Transformers trocam esses ganhos por custo de memória quadrático no comprimento da sequência. SSMs como Mamba revisitam a ideia de estado com portões: eles mantêm um estado comprimido (como LSTM) mas tornam os portões dependentes da entrada (seletivos) e eficientes em hardware, obtendo a vantagem de memória constante do LSTM com qualidade no nível do Transformer.

Conceitos relacionados

← Todos os termos
← LoRA Luma AI →