早停法：定义与含义 — AI 维基

当保留验证集上的性能停止提升时停止训练，而不是训练固定的步数。随着训练继续，训练损失持续下降但验证损失最终开始上升——模型正在对训练数据过拟合。早停法在质量退化之前捕获这个拐点并保存最佳模型。

为什么重要

早停法是微调中最简单也最有效的正则化技术。没有它，你可能训练过长并破坏你想要保留的能力。有了它，模型自动在最佳点停止。“耐心”参数（在停止之前有多少次评估没有改善）是微调中最重要的超参数之一。

过程：(1)将数据分为训练集和验证集，(2)在训练过程中定期在验证集上评估，(3)跟踪最佳验证指标（损失、准确率、F1），(4)如果指标连续N次评估没有改善（耐心），则停止训练并回退到验证分数最佳的检查点。这防止模型在对泛化没有帮助的点之后继续记忆训练数据。

对于LLM微调，早停法特别重要，因为灾难性遗忘可能破坏基础模型的能力。在客服数据上微调过久的模型可能变得擅长客服但失去数学或写代码的能力。跨多种任务类型（不仅仅是微调任务）监控验证损失有助于捕获这种情况。典型的微调运行是1–5个epoch，耐心为2–3次评估。

有趣的是，LLM预训练很少使用早停法。训练运行非常昂贵，数据集非常大，以至于模型通常训练预定数量的token（基于缩放定律）。预训练中过拟合很少见，因为模型通常不会两次看到相同的数据。早停法主要是微调和经典机器学习的技术。