प्रक्रिया: (1) अपने डेटा को training और validation sets में विभाजित करें, (2) training के दौरान समय-समय पर validation set पर evaluate करें, (3) सबसे अच्छे validation metric (loss, accuracy, F1) को track करें, (4) यदि metric N evaluations (patience) तक नहीं सुधरा है, तो training रोकें और सबसे अच्छे validation score वाले checkpoint पर वापस जाएँ। यह मॉडल को training data को उस बिंदु से परे याद करने से रोकता है जहाँ यह generalization में मदद करता है।
LLM fine-tuning के लिए, early stopping विशेष रूप से महत्वपूर्ण है क्योंकि catastrophic forgetting base model capabilities को नष्ट कर सकता है। Customer support data पर बहुत लंबे समय तक fine-tune किया गया मॉडल support में बहुत अच्छा हो सकता है लेकिन math या code लिखने की क्षमता खो सकता है। कई task types (केवल fine-tuning task नहीं) में validation loss की निगरानी इसे पकड़ने में मदद करती है। Typical fine-tuning runs 2–3 evaluations की patience के साथ 1–5 epochs होते हैं।
दिलचस्प बात यह है कि LLM pre-training शायद ही कभी early stopping का उपयोग करता है। Training runs इतने महंगे होते हैं और datasets इतने बड़े कि मॉडल आमतौर पर tokens की पूर्वनिर्धारित संख्या (scaling laws पर आधारित) के लिए train करते हैं। Pre-training के दौरान overfitting दुर्लभ है क्योंकि मॉडल आमतौर पर एक ही data को दो बार नहीं देखता। Early stopping मुख्य रूप से एक fine-tuning और classical ML technique है।