网格搜索评估指定超参数值的每种组合:学习率[1e-3, 1e-4, 1e-5] × 批量大小[16, 32, 64] = 9个实验。它是穷举的,但随着超参数增加指数级增长。随机搜索从指定范围中随机采样组合——令人惊讶的是,它通常比网格搜索找到更好的配置,因为它更均匀地探索空间(Bergstra & Bengio,2012)。
贝叶斯优化使用概率模型(通常是高斯过程或基于树的模型)根据过去的实验预测哪些超参数可能表现良好,然后优先探索那些区域。Optuna、Ray Tune和W&B Sweeps等库实现了这一方法。对于昂贵的实验(训练一个模型需要数小时),贝叶斯优化相比随机搜索的效率优势显著——通常能以3–5倍更少的实验找到好的配置。
从你的架构的既定默认值开始(已发布的学习率、批量大小等),然后先调优最具影响力的参数。对于LLM微调,学习率几乎总是最重要的(尝试1e-5到5e-4)。对于LoRA,秩(4–64)和alpha(通常是秩的2倍)最重要。使用早停法提前终止没有前途的实验。将所有内容记录到W&B或类似工具——你会想比较运行并理解什么有效。