मूल कारण weight sharing है: समान पैरामीटर कई क्षमताओं को एन्कोड करते हैं, और नए कार्य के लिए उन्हें अपडेट करना मौजूदा एन्कोडिंग को बाधित करता है। एक बड़े न्यूरल नेटवर्क में, ज्ञान समर्पित न्यूरॉन्स में संग्रहीत नहीं होता — यह जटिल, ओवरलैपिंग पैटर्न (superposition) में वज़न में वितरित होता है। नए ज्ञान के लिए उन वज़न को संशोधित करना अनिवार्य रूप से पुराने ज्ञान को बाधित करता है।
कई तकनीकें forgetting को कम करती हैं। फ़ाइन-ट्यूनिंग के दौरान कम learning rates वज़न परिवर्तनों को न्यूनतम करती हैं। LoRA मूल वज़न को frozen रखते हुए नए प्रशिक्षणीय पैरामीटर जोड़ता है। Elastic Weight Consolidation (EWC) पहचानता है कि कौन से वज़न पुराने कार्यों के लिए महत्वपूर्ण हैं और उनमें परिवर्तन को दंडित करता है। Replay विधियाँ नए कार्य प्रशिक्षण में पुराने कार्य डेटा को मिलाती हैं। कोई भी पूरी तरह से समस्या को हल नहीं करता — plasticity (नई चीज़ें सीखना) और stability (पुरानी चीज़ें बनाए रखना) के बीच हमेशा एक ट्रेड-ऑफ़ होता है।
Continual learning (जिसे lifelong learning भी कहा जाता है) ऐसे मॉडल बनाने का शोध लक्ष्य है जो पुरानी क्षमताओं को भूले बिना नए डेटा से सीखते रह सकें — जिस तरह मनुष्य करते हैं। वर्तमान LLMs एक विशाल dataset पर एक बार प्रशिक्षित करके और फिर सावधानीपूर्वक फ़ाइन-ट्यून करके इसे टालते हैं। सच्ची continual learning एक खुली समस्या बनी हुई है और परिवर्तनकारी होगी: कल्पना करें एक ऐसा मॉडल जो बिना गुणवत्ता गिराए हर बातचीत से सीखता रहे।