RLHF的一种替代方案,用于模型对齐。DPO使用偏好/拒绝回复配对直接优化模型,无需单独的奖励模型或强化学习。更简单、更稳定、计算量更少。
DPO使对齐变得民主化。RLHF的多阶段流程复杂且不稳定;DPO将其压缩为一步。许多开放权重模型现在使用DPO的变体。
核心洞见(Rafailov等人,2023):最优策略与奖励函数之间存在封闭形式的映射。变体包括:IPO、KTO、ORPO。偏好数据的质量比算法本身更重要。