RLHF 是一个多阶段的过程,理解每个阶段对于理解其为何有效以及为何失效至关重要。首先,你从一个已经过监督微调(SFT)的模型开始,该模型在指令-响应对上进行训练,因此至少能够正确格式化响应。其次,你收集比较数据:人类标注者会看到同一提示的两个或多个模型响应,并被要求按质量进行排序。这些比较数据用于训练一个独立的奖励模型——一个神经网络,它接收提示-响应对并输出一个标量分数,预测人类会有多喜欢该响应。第三,你使用奖励模型作为信号,通过强化学习算法(通常是近端策略优化(PPO))进一步训练主模型。模型生成响应,奖励模型对其进行评分,然后模型的参数会更新以增加预期奖励。一个关键组件是KL散度惩罚,它防止模型偏离其SFT起始点太远——没有它,模型会迅速学会利用奖励模型中的缺陷,而不是真正生成更好的响应。
奖励模型既是整个过程的核心,也是最薄弱的环节。它必须从有限的比较数据中学习预测人类偏好,然后将这些偏好推广到新颖的提示和响应中。在实践中,奖励模型可能会出现盲点:它们可能学会偏好更长的响应(因为标注者通常将长度与彻底性等同),听起来自信但准确性无关的响应,或包含模糊语言的响应(因为标注者倾向于在模糊问题上选择谨慎答案)。这些奖励模型的缺陷在RL阶段会被放大,这种现象称为奖励黑客行为或奖励模型过优化。你可以亲眼看到这一过程:当你对奖励模型进行更长时间的训练时,奖励分数持续上升,但人类对输出的实际偏好却达到峰值后开始下降。这就是为什么RLHF实践者会限制RL步骤的数量,并定期使用新的人类判断进行评估,而不是单纯依赖奖励模型的分数。
RLHF的实际挑战足够显著,以至于该领域已经开发出几种替代方案。2023年引入的直接偏好优化(DPO)完全消除了独立的奖励模型和RL阶段。相反,它通过将RLHF目标巧妙地重新表述为分类损失,直接在比较数据上优化语言模型。DPO更易于实现,训练更稳定,且需要的计算资源更少。如今许多开源模型都使用DPO或其变体(IPO、KTO、ORPO)而不是基于PPO的RLHF。其他方法如RLAIF(基于AI反馈的强化学习)则用另一个AI模型取代人类标注者——安特罗皮克的宪法AI框架采用这种方法,其中模型根据一组原则对自己输出进行批评和修订。这些替代方案各有权衡:DPO更简单,但可能在复杂偏好结构上表达能力较弱,而RLAIF扩展性更好,但会继承提供反馈的AI模型的偏见。
RLHF中的人类标注环节是其最被低估的复杂性之一。标注者质量、一致性以及人口统计学组成直接影响模型所学到的内容。如果你的标注者主要是英语母语的大学毕业生,模型将学习他们的偏好,这可能无法推广到其他群体。对于开放性问题,标注者之间对“更好”响应的一致性往往出人意料地低,这意味着奖励模型正在从嘈杂的标签中学习。一些实验室通过详细评分标准、标注者校准会议以及每个比较的多个标注者多数投票来解决这一问题。其他实验室则使用合成数据流水线,由更强的模型生成比较数据。该领域仍在摸索最佳实践,而标注流水线通常成为瓶颈——不是因为技术难度,而是因为当你试图精确指定足够明确的训练信号时,定义“好”本身在哲学上就是一项真正的挑战。