Zubnet AI學習Wiki › Hyperparameter Tuning
訓練

Hyperparameter Tuning

別名:HPO、超參數最佳化、網格搜尋
系統性地搜尋最佳超參數——那些在訓練過程中不會被學習、但必須在開始前設定的配置選擇。學習率、批量大小、層數、Dropout 率和 LoRA 秩都是超參數。調校方法包括網格搜尋(嘗試所有組合)、隨機搜尋(嘗試隨機組合),以及貝葉斯最佳化(使用過去的結果來引導搜尋)。

為什麼重要

好的和差的超參數之間的差異可能是巨大的——錯誤的學習率可以讓訓練發散或收斂到不好的解。超參數調校是你從模型架構和資料中獲得最大效益的方式。對於 LLM 微調,學習率和 epoch 數量通常是最具影響力的超參數。

深度解析

網格搜尋評估指定超參數值的每種組合:學習率 [1e-3, 1e-4, 1e-5] × 批量大小 [16, 32, 64] = 9 個實驗。它是詳盡的,但隨著更多超參數的加入,成本呈指數增長。隨機搜尋從指定範圍中採樣隨機組合——令人驚訝的是,它通常比網格搜尋找到更好的配置,因為它更均勻地探索空間(Bergstra & Bengio, 2012)。

貝葉斯最佳化

貝葉斯最佳化使用機率模型(通常是高斯過程或基於樹的模型)根據過去的實驗預測哪些超參數可能表現良好,然後優先探索那些區域。Optuna、Ray Tune 和 W&B Sweeps 等函式庫實現了這一功能。對於昂貴的實驗(訓練一個模型需要數小時),貝葉斯最佳化相對於隨機搜尋的效率優勢顯著——它通常以 3–5 倍更少的實驗找到好的配置。

實用建議

從你的架構的既定預設值開始(已發表的學習率、批量大小等),然後先調校最具影響力的參數。對於 LLM 微調,學習率幾乎總是最重要的(嘗試 1e-5 到 5e-4)。對於 LoRA,秩(4–64)和 alpha(通常為秩的 2 倍)最重要。使用提前停止來及時終止無望的實驗。將所有內容記錄到 W&B 或類似工具——你會想要比較不同的運行並理解什麼有效。

相關概念

← 所有術語
ESC
Start typing to search...