मानक LLM प्रशिक्षण schedule के तीन चरण हैं: (1) warmup: प्रशिक्षण steps के पहले 0.1–2% में learning rate को ~0 से peak मान तक रैखिक रूप से बढ़ाएं। यह randomly initialized मॉडल को शुरुआत में बहुत बड़े steps लेने से रोकता है। (2) Stable/peak: प्रशिक्षण के बड़े हिस्से के लिए peak learning rate बनाए रखें। (3) Decay: अंत तक cosine curve के अनुसार learning rate को लगभग-शून्य तक कम करें। यह मॉडल को अंतिम चरण में सूक्ष्म समायोजन करने देता है।
Cosine decay: lr(t) = lr_min + 0.5 · (lr_max − lr_min) · (1 + cos(π · t / T)), जहां t current step है और T कुल steps हैं। यह एक सुचारू curve उत्पन्न करता है जो शुरू में धीरे-धीरे कम होता है, फिर तेज़, फिर न्यूनतम के करीब पहुंचते हुए फिर से धीरे-धीरे। Cosine क्यों? यह अनुभवजन्य रूप से अच्छी तरह काम करता है और step-based schedules के अचानक transitions से बचता है। अंतिम learning rate आमतौर पर peak से 10x छोटा होता है।
Linear scaling rule: यदि आप batch size दोगुना करते हैं, तो learning rate दोगुना करें। यह effective step size को संरक्षित करता है जब gradient estimate अधिक सटीक हो जाता है (बड़े batch से)। Rule मध्यम batch sizes के लिए लगभग सही है लेकिन बहुत बड़े batches पर टूट जाता है, जहां optimal learning rate linearly से धीमे बढ़ता है। इस संबंध को सही करना distributed प्रशिक्षण के लिए महत्वपूर्ण है जहां batch size GPUs की संख्या के साथ scale करता है।