Checkpoint: परिभाषा और अर्थ — AI विकी

प्रशिक्षण के दौरान एक मॉडल की स्थिति का सहेजा गया snapshot — weights, optimizer state, learning rate schedule, और training step। Checkpoints आपको रुकावटों (hardware failure, preemption) के बाद प्रशिक्षण फिर से शुरू करने, मॉडल के मध्यवर्ती संस्करणों का मूल्यांकन करने, और यदि प्रशिक्षण खराब होता है तो पहले के संस्करण पर वापस जाने देते हैं। हर कुछ हज़ार steps पर checkpoints सहेजना मानक प्रथा है।

यह क्यों मायने रखता है

बड़े मॉडलों को प्रशिक्षित करने में दिन से महीने लगते हैं। Checkpoints के बिना, 100,000-step प्रशिक्षण रन के step 90,000 पर GPU failure का अर्थ है शुरू से शुरू करना। Checkpoints बीमा हैं: वे incrementally प्रगति सहेजते हैं ताकि आप केवल अंतिम checkpoint के बाद से काम खोएं। वे model selection भी सक्षम करते हैं — कभी-कभी एक पहले का checkpoint आपके evaluation metrics पर अंतिम से बेहतर प्रदर्शन करता है।

गहन अध्ययन

70B मॉडल के लिए एक पूर्ण checkpoint में शामिल हैं: model weights (~140 GB FP16 में), optimizer states (~280 GB Adam के लिए, जो प्रति parameter दो moving averages संग्रहीत करता है), learning rate scheduler state, random number generator states, और current training step। कुल: प्रति checkpoint ~420 GB। इसे डिस्क पर सहेजने में महत्वपूर्ण समय और storage लगता है, यही कारण है कि checkpointing हर step के बजाय समय-समय पर की जाती है।

Checkpoint रणनीतियां

सामान्य रणनीतियां: हर N steps पर सहेजें (सरल लेकिन बहुत storage उपयोग करता है), केवल K सबसे हालिया checkpoints सहेजें (स्थान बचाने के लिए पुराने हटाएं), evaluation metrics के आधार पर सहेजें (सबसे अच्छे validation loss वाला checkpoint रखें), और async checkpointing का उपयोग करें (पृष्ठभूमि में सहेजें जबकि प्रशिक्षण अगले batch पर जारी रहता है)। बड़े प्रशिक्षण रन अक्सर इन सभी का उपयोग करते हैं: तेज़ NVMe storage पर बार-बार local checkpoints प्लस disaster recovery के लिए network storage पर समय-समय पर remote checkpoints।

Checkpoint रूपांतरण

विभिन्न frameworks विभिन्न checkpoint formats का उपयोग करते हैं: PyTorch का state_dict, Hugging Face का safetensors, FSDP के sharded checkpoints, और DeepSpeed के ZeRO checkpoints। Formats के बीच रूपांतरण एक सामान्य कार्य है — आप DeepSpeed (GPUs में sharded) के साथ प्रशिक्षित कर सकते हैं लेकिन inference या Hugging Face पर अपलोड करने के लिए एक single consolidated checkpoint की आवश्यकता है। safetensors format साझा करने के लिए मानक बनता जा रहा है क्योंकि यह लोड करने में तेज़ और memory-safe है।

Checkpoint

यह क्यों मायने रखता है

गहन अध्ययन

Checkpoint रणनीतियां

Checkpoint रूपांतरण

संबंधित अवधारणाएँ