Zubnet AI学习Wiki › DPO
训练

DPO

别名:直接偏好优化、Direct Preference Optimization

RLHF的一种替代方案,用于模型对齐。DPO使用偏好/拒绝回复配对直接优化模型,无需单独的奖励模型或强化学习。更简单、更稳定、计算量更少。

为什么重要

DPO使对齐变得民主化。RLHF的多阶段流程复杂且不稳定;DPO将其压缩为一步。许多开放权重模型现在使用DPO的变体。

深度解析

核心洞见(Rafailov等人,2023):最优策略与奖励函数之间存在封闭形式的映射。变体包括:IPO、KTO、ORPO。偏好数据的质量比算法本身更重要。

相关概念

← 所有术语
← Diffusion Transformer Dropout →