網格搜尋評估指定超參數值的每種組合:學習率 [1e-3, 1e-4, 1e-5] × 批量大小 [16, 32, 64] = 9 個實驗。它是詳盡的,但隨著更多超參數的加入,成本呈指數增長。隨機搜尋從指定範圍中採樣隨機組合——令人驚訝的是,它通常比網格搜尋找到更好的配置,因為它更均勻地探索空間(Bergstra & Bengio, 2012)。
貝葉斯最佳化使用機率模型(通常是高斯過程或基於樹的模型)根據過去的實驗預測哪些超參數可能表現良好,然後優先探索那些區域。Optuna、Ray Tune 和 W&B Sweeps 等函式庫實現了這一功能。對於昂貴的實驗(訓練一個模型需要數小時),貝葉斯最佳化相對於隨機搜尋的效率優勢顯著——它通常以 3–5 倍更少的實驗找到好的配置。
從你的架構的既定預設值開始(已發表的學習率、批量大小等),然後先調校最具影響力的參數。對於 LLM 微調,學習率幾乎總是最重要的(嘗試 1e-5 到 5e-4)。對於 LoRA,秩(4–64)和 alpha(通常為秩的 2 倍)最重要。使用提前停止來及時終止無望的實驗。將所有內容記錄到 W&B 或類似工具——你會想要比較不同的運行並理解什麼有效。