超参数调优：定义与含义 — AI 维基

系统地搜索最佳超参数——在训练期间不会被学习、必须在训练开始前设置的配置选择。学习率、批量大小、层数、dropout率和LoRA秩都是超参数。调优方法包括网格搜索（尝试所有组合）、随机搜索（尝试随机组合）和贝叶斯优化（使用过去的结果指导搜索）。

为什么重要

好的和差的超参数之间的差别可以是巨大的——错误的学习率可以让训练发散或收敛到糟糕的解。超参数调优是你从模型架构和数据中获得最大收益的方式。对于微调LLM，学习率和epoch数通常是最具影响力的调优超参数。

深度解析

网格搜索评估指定超参数值的每种组合：学习率[1e-3, 1e-4, 1e-5] × 批量大小[16, 32, 64] = 9个实验。它是穷举的，但随着超参数增加指数级增长。随机搜索从指定范围中随机采样组合——令人惊讶的是，它通常比网格搜索找到更好的配置，因为它更均匀地探索空间（Bergstra & Bengio，2012）。

贝叶斯优化

贝叶斯优化使用概率模型（通常是高斯过程或基于树的模型）根据过去的实验预测哪些超参数可能表现良好，然后优先探索那些区域。Optuna、Ray Tune和W&B Sweeps等库实现了这一方法。对于昂贵的实验（训练一个模型需要数小时），贝叶斯优化相比随机搜索的效率优势显著——通常能以3–5倍更少的实验找到好的配置。

实用技巧

从你的架构的既定默认值开始（已发布的学习率、批量大小等），然后先调优最具影响力的参数。对于LLM微调，学习率几乎总是最重要的（尝试1e-5到5e-4）。对于LoRA，秩（4–64）和alpha（通常是秩的2倍）最重要。使用早停法提前终止没有前途的实验。将所有内容记录到W&B或类似工具——你会想比较运行并理解什么有效。