Overfitting तब होता है जब एक मॉडल के पास अपने प्रशिक्षण डेटा में विशिष्ट patterns को memorize करने के लिए पर्याप्त क्षमता होती है — जिसमें noise, outliers, और incidental correlations शामिल हैं — बजाय अंतर्निहित सामान्यीकृत patterns को सीखने के। यांत्रिक रूप से, आप इसे प्रशिक्षण के दौरान दो loss curves को tracking करके detect करते हैं: training loss और validation loss (एक held-out set पर गणना की गई जिस पर मॉडल कभी प्रशिक्षित नहीं होता)। एक स्वस्थ प्रशिक्षण रन में, दोनों curves एक साथ नीचे जाते हैं। Overfitting एक divergence के रूप में दिखाई देता है: training loss कम होता रहता है जबकि validation loss plateau होता है या चढ़ना शुरू करता है। वह gap मॉडल का अपनी क्षमता को सामान्यीकरण के बजाय memorization पर खर्च करना है।
Overfitting के विरुद्ध classical defenses दशकों में refined हुई हैं और अधिकांश अभी भी आधुनिक LLM प्रशिक्षण पर लागू होती हैं। Dropout प्रशिक्षण के दौरान randomly neuron activations के एक अंश को zero कर देता है, मॉडल को किसी भी एकल pathway पर निर्भर रहने के बजाय redundant representations बनाने के लिए मजबूर करते हुए। Weight decay (L2 regularization) बड़े weight मूल्यों को penalize करता है, मॉडल को संकीर्ण, उच्च-magnitude patterns को fit करने से discourage करते हुए। Early stopping का अर्थ है validation loss की निगरानी करना और जब यह सुधार बंद कर देता है तो प्रशिक्षण को रोकना, भले ही training loss अभी भी गिर रहा हो। Data augmentation — आपके प्रशिक्षण डेटा के synthetic variations बनाना — नए डेटा एकत्र किए बिना dataset को प्रभावी रूप से विस्तारित करता है। भाषा मॉडलों के लिए, इसका अर्थ paraphrasing, back-translation, या context windowing रणनीतियाँ हो सकती हैं जो एक ही text को अलग आसपास के context के साथ present करती हैं।
बड़े भाषा मॉडल युग में, overfitting के कुछ non-obvious लक्षण हैं। बहुत बड़े datasets पर प्रशिक्षित बहुत बड़े मॉडल अक्सर pre-training के लिए "underfitting" regime में हैं — वे कम के बजाय अधिक डेटा या अधिक प्रशिक्षण steps से लाभ उठा सकते हैं। Chinchilla scaling laws ने इसे formalize किया: एक दिए गए compute बजट के लिए, मॉडल आकार और प्रशिक्षण tokens के बीच एक optimal balance है, और अधिकांश शुरुआती LLMs अपने parameter count के सापेक्ष बहुत कम tokens पर overtrained थे। फ्रंटियर scale पर pre-training के दौरान overfitting दुर्लभ है ठीक इसलिए क्योंकि datasets इतने विशाल हैं। लेकिन यह fine-tuning के दौरान एक गंभीर चिंता बन जाती है, जहाँ datasets आम तौर पर परिमाण के क्रम छोटे होते हैं। एक 7B मॉडल को कुछ हज़ार उदाहरणों पर 2-3 epochs से अधिक के लिए fine-tuning लगभग हमेशा overfit करता है, और लक्षण पहचानने योग्य हैं: मॉडल प्रशिक्षण उदाहरणों को verbatim echo करना शुरू कर देता है, उन prompts को संभालने की क्षमता खो देता है जो प्रशिक्षण format से भिन्न होते हैं, और यहाँ तक कि सामान्य कार्यों पर degrade हो सकता है जिन्हें यह पहले अच्छी तरह से संभालता था।
आधुनिक AI में overfitting के सबसे insidious रूपों में से एक benchmark overfitting है, जहाँ प्रशिक्षण डेटा में evaluation benchmarks के समान प्रश्न होते हैं (या जानबूझकर शामिल करने के लिए चुने जाते हैं)। मॉडल benchmark पर अच्छा score करता है लेकिन वास्तव में अंतर्निहित क्षमता हासिल नहीं की है। यह classical overfitting से अलग है क्योंकि मॉडल अपने प्रशिक्षण set के समान डेटा के लिए ठीक से सामान्यीकृत होता है — समस्या यह है कि benchmark सच्ची क्षमता के बजाय training-set-adjacent प्रदर्शन माप रहा है। यही कारण है कि क्षेत्र held-out evaluation sets, contamination detection, और Chatbot Arena जैसे human-preference-आधारित evaluation की ओर बढ़ा है, जहाँ test प्रश्न पहले से ज्ञात नहीं हैं और डेटा चयन के माध्यम से gamed नहीं किए जा सकते।
Practitioners के लिए, सबसे उपयोगी मानसिक मॉडल यह है कि overfitting एक binary state नहीं बल्कि एक spectrum है। memorization की कुछ डिग्री अपरिहार्य और यहाँ तक कि वांछनीय है — आप चाहते हैं कि मॉडल जाने कि Paris France की राजधानी है, जो एक memorized तथ्य है। समस्या तब उठती है जब memorization सामान्यीकरण को crowds out कर देता है: मॉडल अवधारणा को novel प्रश्नों का उत्तर देने के लिए पर्याप्त अच्छी तरह समझने के बजाय प्रशिक्षण से सटीक phrasing को recall करता है। training-validation loss gap को देखना, LoRA जैसी parameter-कुशल विधियों का उपयोग करना (जो मॉडल की overfit करने की क्षमता को सीमित करती हैं), और genuinely out-of-distribution उदाहरणों पर परीक्षण करना सबसे अच्छे व्यावहारिक defenses हैं।