Zubnet AI學習Wiki › DPO
訓練

DPO

別名:直接偏好優化

RLHF 的替代方案,用於模型對齊。DPO 使用偏好/拒絕回應的配對直接優化模型,無需獨立的獎勵模型或強化學習。更簡單、更穩定、更省算力。

為什麼重要

DPO 讓對齊技術民主化了。RLHF 的多階段管線既繁瑣又不穩定;DPO 將其壓縮為一個步驟。許多開放權重模型現在都使用 DPO 的變體。

深度解析

關鍵洞見(Rafailov 等人,2023):最優策略與獎勵函數之間存在封閉形式的映射。變體包括:IPO、KTO、ORPO。偏好資料的品質比演算法本身更重要。

相關概念

← 所有術語