Early Stopping: परिभाषा और अर्थ — AI विकी

एक निश्चित संख्या के steps के लिए प्रशिक्षण के बजाय, जब held-out validation set पर प्रदर्शन में सुधार बंद हो जाए तब प्रशिक्षण रोकना। जैसे-जैसे प्रशिक्षण जारी रहता है, training loss घटता रहता है लेकिन validation loss अंततः बढ़ने लगता है — मॉडल training data पर overfit हो रहा है। Early stopping इस inflection point को पकड़ता है और गुणवत्ता खराब होने से पहले सबसे अच्छे मॉडल को save करता है।

यह क्यों मायने रखता है

Early stopping fine-tuning के लिए सबसे सरल और सबसे प्रभावी regularization technique है। इसके बिना, आप बहुत लंबे समय तक training का जोखिम उठाते हैं और उन capabilities को नष्ट कर देते हैं जिन्हें आप संरक्षित करना चाहते थे। इसके साथ, मॉडल स्वचालित रूप से अपने सर्वोत्तम बिंदु पर रुक जाता है। "Patience" parameter (सुधार के बिना कितने evaluations तक रुकने से पहले) fine-tuning में सबसे महत्वपूर्ण hyperparameters में से एक है।

गहन अध्ययन

प्रक्रिया: (1) अपने डेटा को training और validation sets में विभाजित करें, (2) training के दौरान समय-समय पर validation set पर evaluate करें, (3) सबसे अच्छे validation metric (loss, accuracy, F1) को track करें, (4) यदि metric N evaluations (patience) तक नहीं सुधरा है, तो training रोकें और सबसे अच्छे validation score वाले checkpoint पर वापस जाएँ। यह मॉडल को training data को उस बिंदु से परे याद करने से रोकता है जहाँ यह generalization में मदद करता है।

LLM Fine-Tuning में

LLM fine-tuning के लिए, early stopping विशेष रूप से महत्वपूर्ण है क्योंकि catastrophic forgetting base model capabilities को नष्ट कर सकता है। Customer support data पर बहुत लंबे समय तक fine-tune किया गया मॉडल support में बहुत अच्छा हो सकता है लेकिन math या code लिखने की क्षमता खो सकता है। कई task types (केवल fine-tuning task नहीं) में validation loss की निगरानी इसे पकड़ने में मदद करती है। Typical fine-tuning runs 2–3 evaluations की patience के साथ 1–5 epochs होते हैं।

Pre-Training में उपयोग नहीं किया जाता

दिलचस्प बात यह है कि LLM pre-training शायद ही कभी early stopping का उपयोग करता है। Training runs इतने महंगे होते हैं और datasets इतने बड़े कि मॉडल आमतौर पर tokens की पूर्वनिर्धारित संख्या (scaling laws पर आधारित) के लिए train करते हैं। Pre-training के दौरान overfitting दुर्लभ है क्योंकि मॉडल आमतौर पर एक ही data को दो बार नहीं देखता। Early stopping मुख्य रूप से एक fine-tuning और classical ML technique है।

Early Stopping

यह क्यों मायने रखता है

गहन अध्ययन

LLM Fine-Tuning में

Pre-Training में उपयोग नहीं किया जाता

संबंधित अवधारणाएँ