Learning Rate Schedule: परिभाषा और अर्थ — AI विकी

प्रशिक्षण के दौरान learning rate को स्थिर रखने के बजाय बदलने की एक रणनीति। अधिकांश आधुनिक प्रशिक्षण warmup (लगभग-शून्य से peak तक धीरे-धीरे बढ़ाना) के बाद decay (धीरे-धीरे शून्य की ओर कम करना) का उपयोग करता है। Cosine annealing सबसे आम decay schedule है। Learning rate नियंत्रित करता है कि प्रत्येक gradient update step कितना बड़ा है — यकीनन प्रशिक्षण में सबसे महत्वपूर्ण hyperparameter।

यह क्यों मायने रखता है

Learning rate schedule को सही करना एक प्रशिक्षण रन को बना या बिगाड़ सकता है। बहुत अधिक और मॉडल diverge करता है (loss spikes, प्रशिक्षण विफल)। बहुत कम और यह बहुत धीरे प्रशिक्षित होता है या अटक जाता है। Schedule batch size, model size, और data के साथ interact करता है — कोई सार्वभौमिक setting नहीं है। Learning rate schedules को समझना आपको training curves की व्याख्या करने और प्रशिक्षण समस्याओं का निदान करने में मदद करता है।

गहन अध्ययन

मानक LLM प्रशिक्षण schedule के तीन चरण हैं: (1) warmup: प्रशिक्षण steps के पहले 0.1–2% में learning rate को ~0 से peak मान तक रैखिक रूप से बढ़ाएं। यह randomly initialized मॉडल को शुरुआत में बहुत बड़े steps लेने से रोकता है। (2) Stable/peak: प्रशिक्षण के बड़े हिस्से के लिए peak learning rate बनाए रखें। (3) Decay: अंत तक cosine curve के अनुसार learning rate को लगभग-शून्य तक कम करें। यह मॉडल को अंतिम चरण में सूक्ष्म समायोजन करने देता है।

Cosine Annealing

Cosine decay: lr(t) = lr_min + 0.5 · (lr_max − lr_min) · (1 + cos(π · t / T)), जहां t current step है और T कुल steps हैं। यह एक सुचारू curve उत्पन्न करता है जो शुरू में धीरे-धीरे कम होता है, फिर तेज़, फिर न्यूनतम के करीब पहुंचते हुए फिर से धीरे-धीरे। Cosine क्यों? यह अनुभवजन्य रूप से अच्छी तरह काम करता है और step-based schedules के अचानक transitions से बचता है। अंतिम learning rate आमतौर पर peak से 10x छोटा होता है।

Learning Rate-Batch Size संबंध

Linear scaling rule: यदि आप batch size दोगुना करते हैं, तो learning rate दोगुना करें। यह effective step size को संरक्षित करता है जब gradient estimate अधिक सटीक हो जाता है (बड़े batch से)। Rule मध्यम batch sizes के लिए लगभग सही है लेकिन बहुत बड़े batches पर टूट जाता है, जहां optimal learning rate linearly से धीमे बढ़ता है। इस संबंध को सही करना distributed प्रशिक्षण के लिए महत्वपूर्ण है जहां batch size GPUs की संख्या के साथ scale करता है।

Learning Rate Schedule

यह क्यों मायने रखता है

गहन अध्ययन

Cosine Annealing

Learning Rate-Batch Size संबंध

संबंधित अवधारणाएँ