LSTM: परिभाषा और अर्थ — AI विकी

एक प्रकार का recurrent neural network (RNN) जो अनुक्रमिक डेटा में दीर्घ-श्रेणी निर्भरताओं को सीखने के लिए डिज़ाइन किया गया है। LSTM एक "cell state" प्रस्तुत करता है — एक मेमोरी हाईवे जो कई समय चरणों में अपरिवर्तित जानकारी ले जा सकता है — तीन गेट्स द्वारा नियंत्रित: एक इनपुट गेट (क्या जोड़ना है), एक forget गेट (क्या हटाना है), और एक आउटपुट गेट (क्या प्रकट करना है)। 1997 में आविष्कृत, LSTM ने Transformers के उभरने तक अनुक्रम मॉडलिंग पर प्रभुत्व किया।

यह क्यों मायने रखता है

LSTM एक दशक (2010 का दशक) तक NLP की रीढ़ था: मशीन अनुवाद, वाक् पहचान, टेक्स्ट जनरेशन, और भावना विश्लेषण सभी LSTMs पर चलते थे। LSTM को समझने से आपको समझ आता है कि Transformers ने इसे क्यों प्रतिस्थापित किया (समानांतरता और दीर्घ-श्रेणी attention बनाम अनुक्रमिक प्रोसेसिंग और संकुचित state) और SSMs जैसे Mamba क्यों दिलचस्प हैं (वे आधुनिक सुधारों के साथ gated-state विचार पर पुनर्विचार करते हैं)।

गहन अध्ययन

LSTM के तीनों गेट सभी छोटे न्यूरल नेटवर्क हैं जो 0 (पूरी तरह ब्लॉक) और 1 (पूरी तरह पास) के बीच मान आउटपुट करते हैं। Forget गेट तय करता है कि कौन सी cell state जानकारी हटानी है। इनपुट गेट तय करता है कि कौन सी नई जानकारी जोड़नी है। आउटपुट गेट तय करता है कि कौन सी cell state जानकारी hidden state के रूप में प्रकट करनी है। यह gating तंत्र नेटवर्क को लंबे अनुक्रमों में क्या याद रखना है और क्या भूलना है यह सीखने देता है — कुछ जो vanilla RNNs नहीं कर सकते थे।

LSTMs क्रांतिकारी क्यों थे

LSTM से पहले, RNNs vanishing gradients से पीड़ित थे: अनुक्रम के शुरू की जानकारी बाद के भागों की प्रोसेसिंग को प्रभावित नहीं कर सकती थी क्योंकि ग्रेडिएंट समय के साथ exponentially क्षय होते थे। LSTM का cell state एक ग्रेडिएंट हाईवे के रूप में कार्य करता है — यह सैकड़ों चरणों के माध्यम से अपरिवर्तित ग्रेडिएंट ले जा सकता है। यही sequence-to-sequence learning को सक्षम बनाता है: मशीन अनुवाद (स्रोत वाक्य एन्कोड, लक्ष्य वाक्य डीकोड), टेक्स्ट सारांशीकरण, और प्रश्न उत्तर सभी LSTMs के साथ व्यावहारिक बने।

LSTM से Transformer से SSM तक

LSTMs टोकनों को अनुक्रमिक रूप से प्रोसेस करते हैं (प्रशिक्षण के दौरान समानांतर नहीं कर सकते) और सभी इतिहास को एक निश्चित-आकार hidden state में संकुचित करते हैं (सूचना अवरोध)। Transformers दोनों हल करते हैं: समानांतर प्रशिक्षण और किसी भी टोकन पर सीधा attention। लेकिन Transformers इन लाभों को अनुक्रम लंबाई में द्विघात मेमोरी लागत के लिए बदलते हैं। Mamba जैसे SSMs gated-state विचार पर पुनर्विचार करते हैं: वे एक संकुचित state बनाए रखते हैं (LSTM की तरह) लेकिन गेट्स को input-dependent (चयनात्मक) और हार्डवेयर-कुशल बनाते हैं, LSTM का constant-memory लाभ Transformer-स्तरीय गुणवत्ता के साथ प्राप्त करते हैं।

LSTM

यह क्यों मायने रखता है

गहन अध्ययन

LSTMs क्रांतिकारी क्यों थे

LSTM से Transformer से SSM तक

संबंधित अवधारणाएँ