Zubnet AI学习Wiki › 超参数调优
训练

超参数调优

别名:HPO、超参数优化、网格搜索
系统地搜索最佳超参数——在训练期间不会被学习、必须在训练开始前设置的配置选择。学习率、批量大小、层数、dropout率和LoRA秩都是超参数。调优方法包括网格搜索(尝试所有组合)、随机搜索(尝试随机组合)和贝叶斯优化(使用过去的结果指导搜索)。

为什么重要

好的和差的超参数之间的差别可以是巨大的——错误的学习率可以让训练发散或收敛到糟糕的解。超参数调优是你从模型架构和数据中获得最大收益的方式。对于微调LLM,学习率和epoch数通常是最具影响力的调优超参数。

深度解析

网格搜索评估指定超参数值的每种组合:学习率[1e-3, 1e-4, 1e-5] × 批量大小[16, 32, 64] = 9个实验。它是穷举的,但随着超参数增加指数级增长。随机搜索从指定范围中随机采样组合——令人惊讶的是,它通常比网格搜索找到更好的配置,因为它更均匀地探索空间(Bergstra & Bengio,2012)。

贝叶斯优化

贝叶斯优化使用概率模型(通常是高斯过程或基于树的模型)根据过去的实验预测哪些超参数可能表现良好,然后优先探索那些区域。Optuna、Ray Tune和W&B Sweeps等库实现了这一方法。对于昂贵的实验(训练一个模型需要数小时),贝叶斯优化相比随机搜索的效率优势显著——通常能以3–5倍更少的实验找到好的配置。

实用技巧

从你的架构的既定默认值开始(已发布的学习率、批量大小等),然后先调优最具影响力的参数。对于LLM微调,学习率几乎总是最重要的(尝试1e-5到5e-4)。对于LoRA,秩(4–64)和alpha(通常是秩的2倍)最重要。使用早停法提前终止没有前途的实验。将所有内容记录到W&B或类似工具——你会想比较运行并理解什么有效。

← 所有术语