RLHF 的替代方案,用於模型對齊。DPO 使用偏好/拒絕回應的配對直接優化模型,無需獨立的獎勵模型或強化學習。更簡單、更穩定、更省算力。
關鍵洞見(Rafailov 等人,2023):最優策略與獎勵函數之間存在封閉形式的映射。變體包括:IPO、KTO、ORPO。偏好資料的品質比演算法本身更重要。