Hyperparameter Tuning: परिभाषा और अर्थ — AI विकी

सर्वोत्तम hyperparameters की व्यवस्थित खोज — वे configuration विकल्प जो training के दौरान सीखे नहीं जाते बल्कि इसे शुरू करने से पहले सेट किए जाने चाहिए। Learning rate, batch size, layers की संख्या, dropout rate, और LoRA rank सभी hyperparameters हैं। Tuning methods में grid search (सभी combinations आज़माना), random search (random combinations आज़माना), और Bayesian optimization (पिछले परिणामों का उपयोग करके खोज को मार्गदर्शित करना) शामिल हैं।

यह क्यों मायने रखता है

अच्छे और खराब hyperparameters सेट के बीच का अंतर बहुत बड़ा हो सकता है — एक गलत learning rate training को diverge करा सकता है या खराब solution पर converge करा सकता है। Hyperparameter tuning वह तरीका है जिससे आप अपने model architecture और data से अधिकतम लाभ प्राप्त करते हैं। LLMs को fine-tune करने के लिए, learning rate और epochs की संख्या आमतौर पर tune करने के लिए सबसे प्रभावशाली hyperparameters हैं।

गहन अध्ययन

Grid search निर्दिष्ट hyperparameter values के हर combination का मूल्यांकन करता है: learning rates [1e-3, 1e-4, 1e-5] × batch sizes [16, 32, 64] = 9 experiments। यह संपूर्ण है लेकिन अधिक hyperparameters जोड़ने पर exponentially महंगा हो जाता है। Random search निर्दिष्ट ranges से random combinations sample करता है — आश्चर्यजनक रूप से, यह अक्सर grid search से बेहतर configurations ढूँढता है क्योंकि यह space को अधिक समान रूप से explore करता है (Bergstra & Bengio, 2012)।

Bayesian Optimization

Bayesian optimization एक probabilistic model (आमतौर पर Gaussian process या tree-based model) का उपयोग करता है जो पिछले experiments के आधार पर predict करता है कि कौन से hyperparameters अच्छा प्रदर्शन करने की संभावना रखते हैं, फिर उन क्षेत्रों को प्राथमिकता देता है। Optuna, Ray Tune, और W&B Sweeps जैसी libraries इसे implement करती हैं। महंगे experiments (एक मॉडल train करने में घंटे लगते हैं) के लिए, random search पर Bayesian optimization का efficiency advantage महत्वपूर्ण है — यह आमतौर पर 3–5x कम experiments में अच्छे configurations ढूँढता है।

व्यावहारिक सुझाव

अपने architecture के लिए स्थापित defaults से शुरू करें (published learning rates, batch sizes, आदि), फिर सबसे प्रभावशाली parameters को पहले tune करें। LLM fine-tuning के लिए, learning rate लगभग हमेशा सबसे महत्वपूर्ण है (1e-5 से 5e-4 आज़माएँ)। LoRA के लिए, rank (4–64) और alpha (आमतौर पर 2× rank) सबसे अधिक मायने रखते हैं। Unpromising experiments को जल्दी समाप्त करने के लिए early stopping का उपयोग करें। सब कुछ W&B या similar में log करें — आप runs की तुलना करना और समझना चाहेंगे कि क्या काम किया।

Hyperparameter Tuning

यह क्यों मायने रखता है

गहन अध्ययन

Bayesian Optimization

व्यावहारिक सुझाव

संबंधित अवधारणाएँ