ओवरफ़िटिंग: परिभाषा और अर्थ — AI विकी

जब एक मॉडल अपने ट्रेनिंग डेटा को बहुत अच्छी तरह से याद कर लेता है और नए इनपुट के लिए सामान्यीकृत करने की क्षमता खो देता है। एक छात्र जो प्रैक्टिस टेस्ट के उत्तरों को याद करता है लेकिन नए समस्याओं को हल कर नहीं सकता है। मॉडल ट्रेनिंग डेटा पर अच्छा प्रदर्शन करता है लेकिन जिसे पहले नहीं देखा गया है, उस पर खराब तरह से काम करता है।

यह क्यों मायने रखता है

ओवरफिटिंग मॉडल ट्रेनिंग में सबसे आम विफलता मोड है। यही कारण है कि मूल्यांकन में अलग टेस्ट सेट का उपयोग किया जाता है, और यही कारण है कि बहुत लंबे समय तक (बहुत अधिक एपोच) ट्रेनिंग करने से वास्तव में एक मॉडल खराब हो सकता है।

गहन अध्ययन

Overfitting तब होता है जब एक मॉडल के पास अपने प्रशिक्षण डेटा में विशिष्ट patterns को memorize करने के लिए पर्याप्त क्षमता होती है — जिसमें noise, outliers, और incidental correlations शामिल हैं — बजाय अंतर्निहित सामान्यीकृत patterns को सीखने के। यांत्रिक रूप से, आप इसे प्रशिक्षण के दौरान दो loss curves को tracking करके detect करते हैं: training loss और validation loss (एक held-out set पर गणना की गई जिस पर मॉडल कभी प्रशिक्षित नहीं होता)। एक स्वस्थ प्रशिक्षण रन में, दोनों curves एक साथ नीचे जाते हैं। Overfitting एक divergence के रूप में दिखाई देता है: training loss कम होता रहता है जबकि validation loss plateau होता है या चढ़ना शुरू करता है। वह gap मॉडल का अपनी क्षमता को सामान्यीकरण के बजाय memorization पर खर्च करना है।

Classical defenses

Overfitting के विरुद्ध classical defenses दशकों में refined हुई हैं और अधिकांश अभी भी आधुनिक LLM प्रशिक्षण पर लागू होती हैं। Dropout प्रशिक्षण के दौरान randomly neuron activations के एक अंश को zero कर देता है, मॉडल को किसी भी एकल pathway पर निर्भर रहने के बजाय redundant representations बनाने के लिए मजबूर करते हुए। Weight decay (L2 regularization) बड़े weight मूल्यों को penalize करता है, मॉडल को संकीर्ण, उच्च-magnitude patterns को fit करने से discourage करते हुए। Early stopping का अर्थ है validation loss की निगरानी करना और जब यह सुधार बंद कर देता है तो प्रशिक्षण को रोकना, भले ही training loss अभी भी गिर रहा हो। Data augmentation — आपके प्रशिक्षण डेटा के synthetic variations बनाना — नए डेटा एकत्र किए बिना dataset को प्रभावी रूप से विस्तारित करता है। भाषा मॉडलों के लिए, इसका अर्थ paraphrasing, back-translation, या context windowing रणनीतियाँ हो सकती हैं जो एक ही text को अलग आसपास के context के साथ present करती हैं।

LLM twist

बड़े भाषा मॉडल युग में, overfitting के कुछ non-obvious लक्षण हैं। बहुत बड़े datasets पर प्रशिक्षित बहुत बड़े मॉडल अक्सर pre-training के लिए "underfitting" regime में हैं — वे कम के बजाय अधिक डेटा या अधिक प्रशिक्षण steps से लाभ उठा सकते हैं। Chinchilla scaling laws ने इसे formalize किया: एक दिए गए compute बजट के लिए, मॉडल आकार और प्रशिक्षण tokens के बीच एक optimal balance है, और अधिकांश शुरुआती LLMs अपने parameter count के सापेक्ष बहुत कम tokens पर overtrained थे। फ्रंटियर scale पर pre-training के दौरान overfitting दुर्लभ है ठीक इसलिए क्योंकि datasets इतने विशाल हैं। लेकिन यह fine-tuning के दौरान एक गंभीर चिंता बन जाती है, जहाँ datasets आम तौर पर परिमाण के क्रम छोटे होते हैं। एक 7B मॉडल को कुछ हज़ार उदाहरणों पर 2-3 epochs से अधिक के लिए fine-tuning लगभग हमेशा overfit करता है, और लक्षण पहचानने योग्य हैं: मॉडल प्रशिक्षण उदाहरणों को verbatim echo करना शुरू कर देता है, उन prompts को संभालने की क्षमता खो देता है जो प्रशिक्षण format से भिन्न होते हैं, और यहाँ तक कि सामान्य कार्यों पर degrade हो सकता है जिन्हें यह पहले अच्छी तरह से संभालता था।

Benchmark gaming

आधुनिक AI में overfitting के सबसे insidious रूपों में से एक benchmark overfitting है, जहाँ प्रशिक्षण डेटा में evaluation benchmarks के समान प्रश्न होते हैं (या जानबूझकर शामिल करने के लिए चुने जाते हैं)। मॉडल benchmark पर अच्छा score करता है लेकिन वास्तव में अंतर्निहित क्षमता हासिल नहीं की है। यह classical overfitting से अलग है क्योंकि मॉडल अपने प्रशिक्षण set के समान डेटा के लिए ठीक से सामान्यीकृत होता है — समस्या यह है कि benchmark सच्ची क्षमता के बजाय training-set-adjacent प्रदर्शन माप रहा है। यही कारण है कि क्षेत्र held-out evaluation sets, contamination detection, और Chatbot Arena जैसे human-preference-आधारित evaluation की ओर बढ़ा है, जहाँ test प्रश्न पहले से ज्ञात नहीं हैं और डेटा चयन के माध्यम से gamed नहीं किए जा सकते।

एक spectrum, switch नहीं

Practitioners के लिए, सबसे उपयोगी मानसिक मॉडल यह है कि overfitting एक binary state नहीं बल्कि एक spectrum है। memorization की कुछ डिग्री अपरिहार्य और यहाँ तक कि वांछनीय है — आप चाहते हैं कि मॉडल जाने कि Paris France की राजधानी है, जो एक memorized तथ्य है। समस्या तब उठती है जब memorization सामान्यीकरण को crowds out कर देता है: मॉडल अवधारणा को novel प्रश्नों का उत्तर देने के लिए पर्याप्त अच्छी तरह समझने के बजाय प्रशिक्षण से सटीक phrasing को recall करता है। training-validation loss gap को देखना, LoRA जैसी parameter-कुशल विधियों का उपयोग करना (जो मॉडल की overfit करने की क्षमता को सीमित करती हैं), और genuinely out-of-distribution उदाहरणों पर परीक्षण करना सबसे अच्छे व्यावहारिक defenses हैं।

ओवरफ़िटिंग