Hyperparameter Tuning（超參數調校）：定義與含義 — AI 維基

系統性地搜尋最佳超參數——那些在訓練過程中不會被學習、但必須在開始前設定的配置選擇。學習率、批量大小、層數、Dropout 率和 LoRA 秩都是超參數。調校方法包括網格搜尋（嘗試所有組合）、隨機搜尋（嘗試隨機組合），以及貝葉斯最佳化（使用過去的結果來引導搜尋）。

為什麼重要

好的和差的超參數之間的差異可能是巨大的——錯誤的學習率可以讓訓練發散或收斂到不好的解。超參數調校是你從模型架構和資料中獲得最大效益的方式。對於 LLM 微調，學習率和 epoch 數量通常是最具影響力的超參數。

深度解析

網格搜尋評估指定超參數值的每種組合：學習率 [1e-3, 1e-4, 1e-5] × 批量大小 [16, 32, 64] = 9 個實驗。它是詳盡的，但隨著更多超參數的加入，成本呈指數增長。隨機搜尋從指定範圍中採樣隨機組合——令人驚訝的是，它通常比網格搜尋找到更好的配置，因為它更均勻地探索空間（Bergstra & Bengio, 2012）。

貝葉斯最佳化

貝葉斯最佳化使用機率模型（通常是高斯過程或基於樹的模型）根據過去的實驗預測哪些超參數可能表現良好，然後優先探索那些區域。Optuna、Ray Tune 和 W&B Sweeps 等函式庫實現了這一功能。對於昂貴的實驗（訓練一個模型需要數小時），貝葉斯最佳化相對於隨機搜尋的效率優勢顯著——它通常以 3–5 倍更少的實驗找到好的配置。

實用建議

從你的架構的既定預設值開始（已發表的學習率、批量大小等），然後先調校最具影響力的參數。對於 LLM 微調，學習率幾乎總是最重要的（嘗試 1e-5 到 5e-4）。對於 LoRA，秩（4–64）和 alpha（通常為秩的 2 倍）最重要。使用提前停止來及時終止無望的實驗。將所有內容記錄到 W&B 或類似工具——你會想要比較不同的運行並理解什麼有效。

Hyperparameter Tuning

為什麼重要

深度解析

貝葉斯最佳化

實用建議

相關概念