训练

DPO

别名：直接偏好优化、Direct Preference Optimization

RLHF的一种替代方案，用于模型对齐。DPO使用偏好/拒绝回复配对直接优化模型，无需单独的奖励模型或强化学习。更简单、更稳定、计算量更少。

为什么重要

DPO使对齐变得民主化。RLHF的多阶段流程复杂且不稳定；DPO将其压缩为一步。许多开放权重模型现在使用DPO的变体。

深度解析

核心洞见（Rafailov等人，2023）：最优策略与奖励函数之间存在封闭形式的映射。变体包括：IPO、KTO、ORPO。偏好数据的质量比算法本身更重要。

相关概念

← 所有术语

← Diffusion Transformer Dropout →