LSTM के तीनों गेट सभी छोटे न्यूरल नेटवर्क हैं जो 0 (पूरी तरह ब्लॉक) और 1 (पूरी तरह पास) के बीच मान आउटपुट करते हैं। Forget गेट तय करता है कि कौन सी cell state जानकारी हटानी है। इनपुट गेट तय करता है कि कौन सी नई जानकारी जोड़नी है। आउटपुट गेट तय करता है कि कौन सी cell state जानकारी hidden state के रूप में प्रकट करनी है। यह gating तंत्र नेटवर्क को लंबे अनुक्रमों में क्या याद रखना है और क्या भूलना है यह सीखने देता है — कुछ जो vanilla RNNs नहीं कर सकते थे।
LSTM से पहले, RNNs vanishing gradients से पीड़ित थे: अनुक्रम के शुरू की जानकारी बाद के भागों की प्रोसेसिंग को प्रभावित नहीं कर सकती थी क्योंकि ग्रेडिएंट समय के साथ exponentially क्षय होते थे। LSTM का cell state एक ग्रेडिएंट हाईवे के रूप में कार्य करता है — यह सैकड़ों चरणों के माध्यम से अपरिवर्तित ग्रेडिएंट ले जा सकता है। यही sequence-to-sequence learning को सक्षम बनाता है: मशीन अनुवाद (स्रोत वाक्य एन्कोड, लक्ष्य वाक्य डीकोड), टेक्स्ट सारांशीकरण, और प्रश्न उत्तर सभी LSTMs के साथ व्यावहारिक बने।
LSTMs टोकनों को अनुक्रमिक रूप से प्रोसेस करते हैं (प्रशिक्षण के दौरान समानांतर नहीं कर सकते) और सभी इतिहास को एक निश्चित-आकार hidden state में संकुचित करते हैं (सूचना अवरोध)। Transformers दोनों हल करते हैं: समानांतर प्रशिक्षण और किसी भी टोकन पर सीधा attention। लेकिन Transformers इन लाभों को अनुक्रम लंबाई में द्विघात मेमोरी लागत के लिए बदलते हैं। Mamba जैसे SSMs gated-state विचार पर पुनर्विचार करते हैं: वे एक संकुचित state बनाए रखते हैं (LSTM की तरह) लेकिन गेट्स को input-dependent (चयनात्मक) और हार्डवेयर-कुशल बनाते हैं, LSTM का constant-memory लाभ Transformer-स्तरीय गुणवत्ता के साथ प्राप्त करते हैं।