Grid search निर्दिष्ट hyperparameter values के हर combination का मूल्यांकन करता है: learning rates [1e-3, 1e-4, 1e-5] × batch sizes [16, 32, 64] = 9 experiments। यह संपूर्ण है लेकिन अधिक hyperparameters जोड़ने पर exponentially महंगा हो जाता है। Random search निर्दिष्ट ranges से random combinations sample करता है — आश्चर्यजनक रूप से, यह अक्सर grid search से बेहतर configurations ढूँढता है क्योंकि यह space को अधिक समान रूप से explore करता है (Bergstra & Bengio, 2012)।
Bayesian optimization एक probabilistic model (आमतौर पर Gaussian process या tree-based model) का उपयोग करता है जो पिछले experiments के आधार पर predict करता है कि कौन से hyperparameters अच्छा प्रदर्शन करने की संभावना रखते हैं, फिर उन क्षेत्रों को प्राथमिकता देता है। Optuna, Ray Tune, और W&B Sweeps जैसी libraries इसे implement करती हैं। महंगे experiments (एक मॉडल train करने में घंटे लगते हैं) के लिए, random search पर Bayesian optimization का efficiency advantage महत्वपूर्ण है — यह आमतौर पर 3–5x कम experiments में अच्छे configurations ढूँढता है।
अपने architecture के लिए स्थापित defaults से शुरू करें (published learning rates, batch sizes, आदि), फिर सबसे प्रभावशाली parameters को पहले tune करें। LLM fine-tuning के लिए, learning rate लगभग हमेशा सबसे महत्वपूर्ण है (1e-5 से 5e-4 आज़माएँ)। LoRA के लिए, rank (4–64) और alpha (आमतौर पर 2× rank) सबसे अधिक मायने रखते हैं। Unpromising experiments को जल्दी समाप्त करने के लिए early stopping का उपयोग करें। सब कुछ W&B या similar में log करें — आप runs की तुलना करना और समझना चाहेंगे कि क्या काम किया।