Catastrophic Forgetting: परिभाषा और अर्थ — AI विकी

जब एक नए कार्य पर प्रशिक्षित न्यूरल नेटवर्क पहले सीखे गए कार्यों को करने की अपनी क्षमता खो देता है। ग्राहक सेवा डेटा पर मॉडल को फ़ाइन-ट्यून करने से यह सेवा में उत्कृष्ट हो सकता है लेकिन कोडिंग में भयानक। नई सीख पुरानी क्षमताओं को एन्कोड करने वाले वज़न को अधिलेखित कर देती है, उन्हें "भूल" जाती है।

यह क्यों मायने रखता है

Catastrophic forgetting फ़ाइन-ट्यूनिंग और निरंतर सीखने की केंद्रीय चुनौती है। इसीलिए आप बस एक मॉडल को कार्य के बाद कार्य पर फ़ाइन-ट्यून करते नहीं रह सकते और उम्मीद नहीं कर सकते कि यह सब कुछ अच्छी तरह करे। यही कारण है कि LoRA (जो केवल पैरामीटर का एक छोटा उपसमुच्चय संशोधित करता है) और सावधानीपूर्वक learning rate चयन जैसी तकनीकें आधार मॉडल क्षमताओं को संरक्षित करने के लिए महत्वपूर्ण हैं।

गहन अध्ययन

मूल कारण weight sharing है: समान पैरामीटर कई क्षमताओं को एन्कोड करते हैं, और नए कार्य के लिए उन्हें अपडेट करना मौजूदा एन्कोडिंग को बाधित करता है। एक बड़े न्यूरल नेटवर्क में, ज्ञान समर्पित न्यूरॉन्स में संग्रहीत नहीं होता — यह जटिल, ओवरलैपिंग पैटर्न (superposition) में वज़न में वितरित होता है। नए ज्ञान के लिए उन वज़न को संशोधित करना अनिवार्य रूप से पुराने ज्ञान को बाधित करता है।

शमन रणनीतियाँ

कई तकनीकें forgetting को कम करती हैं। फ़ाइन-ट्यूनिंग के दौरान कम learning rates वज़न परिवर्तनों को न्यूनतम करती हैं। LoRA मूल वज़न को frozen रखते हुए नए प्रशिक्षणीय पैरामीटर जोड़ता है। Elastic Weight Consolidation (EWC) पहचानता है कि कौन से वज़न पुराने कार्यों के लिए महत्वपूर्ण हैं और उनमें परिवर्तन को दंडित करता है। Replay विधियाँ नए कार्य प्रशिक्षण में पुराने कार्य डेटा को मिलाती हैं। कोई भी पूरी तरह से समस्या को हल नहीं करता — plasticity (नई चीज़ें सीखना) और stability (पुरानी चीज़ें बनाए रखना) के बीच हमेशा एक ट्रेड-ऑफ़ होता है।

Continual Learning का सपना

Continual learning (जिसे lifelong learning भी कहा जाता है) ऐसे मॉडल बनाने का शोध लक्ष्य है जो पुरानी क्षमताओं को भूले बिना नए डेटा से सीखते रह सकें — जिस तरह मनुष्य करते हैं। वर्तमान LLMs एक विशाल dataset पर एक बार प्रशिक्षित करके और फिर सावधानीपूर्वक फ़ाइन-ट्यून करके इसे टालते हैं। सच्ची continual learning एक खुली समस्या बनी हुई है और परिवर्तनकारी होगी: कल्पना करें एक ऐसा मॉडल जो बिना गुणवत्ता गिराए हर बातचीत से सीखता रहे।

Catastrophic Forgetting

यह क्यों मायने रखता है

गहन अध्ययन

शमन रणनीतियाँ

Continual Learning का सपना

संबंधित अवधारणाएँ