超参数：定义与含义 — AI 维基

训练开始前您选择的设置，用于控制模型的学习方式 — 与参数不同，参数是模型自行学习的。超参数包括学习率（每次更新的步长大小）、批量大小（一次处理的样本数量）、训练轮数（遍历数据的次数）、优化器选择（Adam、SGD、AdamW）、权重衰减、丢弃率，以及架构决策如层数和隐藏维度。正确设置超参数往往是模型顺利收敛与陷入混乱或无意义结果之间的关键差异。

为什么重要

超参数调优是机器学习工程中科学与技艺并存的部分。即使拥有完美的数据集和网络结构，但学习率过高会导致训练崩溃，过低则无法收敛。理解超参数对于训练或微调模型的人来说至关重要——知道哪些超参数最关键，可以节省大量计算资源。

深度解析

每次训练运行中，有三个超参数占据主导地位，理解它们之间的相互作用比记住默认值更重要。学习率控制模型在每次更新步骤中权重变化的程度——过高会导致损失爆炸，过低则会浪费计算资源缓慢接近一个永远无法达到的最小值。预训练大型语言模型时，典型的学习率值通常在1e-4到6e-4之间，但该范围会根据模型大小和优化器的不同而变化。批量大小决定模型在更新权重之前看到多少示例。更大的批量可以提供更稳定的梯度估计，但会消耗更多内存，有时还会损害泛化能力。优化器（几乎总是某种Adam变体（当前标准是AdamW））决定如何利用梯度信息来实际移动权重。AdamW添加了解耦权重衰减，这作为正则化项，防止权重无限制增长。这三个超参数紧密交织：将批量大小加倍通常意味着可以增加学习率（线性缩放规则），而切换优化器可能会改变哪些学习率是稳定的。你不能单独调整其中一个并期望得到清晰的结果。

学习率调度

几乎从不选择固定的学习率，这是一条听起来像传统智慧但有坚实实证支持的规则。大多数成功的训练运行使用预热阶段后跟某种形式的衰减。预热阶段从接近零的学习率开始，在最初的几百到几千步中逐渐增加——这可以防止随机初始化的模型在学习到任何有用结构之前就采取巨大且破坏性的梯度步骤。预热后，余弦衰减是最受欢迎的调度方式：学习率沿着半余弦曲线从峰值下降到接近零，覆盖剩余的训练步骤。这为模型提供了一个长时间的高效学习率阶段，随后是温和的冷却期，有助于其收敛到一个好的最小值。线性衰减也有效，但余弦衰减已成为默认选择，因为它在各种架构上表现一致地良好或更好。一些近期的研究探索了循环调度和预热-稳定-衰减模式，但如果你正在启动一个新项目并希望获得可靠的结果，预热加余弦衰减是安全的选择。

预训练与微调

根据你是从头开始预训练还是微调现有模型，重要的超参数会显著变化。预训练是一种粗暴的方法——你关心学习率、批量大小、优化器和权重衰减，因为你正在从零构建表示。微调是对已经训练好的模型进行手术式的调整，规则也随之改变。学习率通常会降低一个数量级或更多：预训练可能使用3e-4，而微调通常使用1e-5到5e-5，因为你想调整模型，而不是覆盖它已有的知识。在微调中，训练轮数（epochs）更为重要——通常一到三轮数据遍历就足够了，而进一步训练则可能在小数据集上导致灾难性的过拟合。使用参数高效方法如LoRA时，一个新的超参数进入画面：秩（rank），它控制适配器的容量。秩8到64覆盖了大多数用例，更高的秩会增加表达能力，但代价是更多可训练参数。LoRA还引入了自己的alpha缩放因子，alpha与秩的比率有效地控制了适配器的学习率。结果是，微调涉及的超参数更少，但每个参数都更敏感，因为你正在操作一个已经具有强先验知识的模型。

搜索策略

网格搜索——在预定义的网格上尝试所有值的组合——是每个人最初学习的策略，但几乎没有人会在大规模使用它。问题是组合爆炸：五个超参数，每个有五个值，意味着3125次运行，而其中大部分运行探索的是无聊且冗余的空间区域。2012年Bergstra和Bengio提出的随机搜索简单到令人尴尬，但始终优于网格搜索：只需从合理分布中采样超参数值，并运行固定预算的实验。它之所以有效，是因为并非所有超参数都同等重要，随机采样更有可能命中那些重要参数的关键值。除了随机搜索，贝叶斯优化（如Optuna或Weights & Biases Sweeps等工具）会构建一个超参数如何映射到性能的模型，并利用该模型建议越来越有希望的配置。基于种群的训练则采用完全不同的方法——它并行运行许多训练任务，定期复制表现最好的模型的权重，并对其超参数进行变异，从而在训练过程中有效地进化出一个好配置，而不是在训练前就确定。每种策略在计算成本与探索效率之间进行权衡，但诚实地说，使用合理预算的随机搜索已经能让你达到90%的目标。

实践者的秘密

这里有一部分很少出现在教科书中：大多数生产系统中的超参数并不是从第一性原理推导出来的，也不是通过严谨的搜索找到的。它们是从在类似问题上成功的论文中复制的。当有人预训练一个70亿参数的模型时，他们会查看LLaMA使用的学习率、Chinchilla推荐的批量大小、GPT-3报告的权重衰减——然后从那里开始。这不是懒惰，而是理性。大型模型的超参数空间非常广阔，每次实验的计算成本高达数千美元，而发表的配置已经代表了资金充足的实验室进行的数十万美元的隐式搜索。在实践中，超参数调优的艺术在于知道从哪篇论文的设置开始，哪些一两个旋钮值得根据具体情况调整，以及何时问题严重到需要真正搜索而不是微调。第一性原理对于理解为什么某个选择有效很重要，但复制成功前辈的设置是大多数实际训练运行得以启动的方式。

超参数