訓練

DPO

別名：直接偏好優化

RLHF 的替代方案，用於模型對齊。DPO 使用偏好/拒絕回應的配對直接優化模型，無需獨立的獎勵模型或強化學習。更簡單、更穩定、更省算力。

為什麼重要

DPO 讓對齊技術民主化了。RLHF 的多階段管線既繁瑣又不穩定；DPO 將其壓縮為一個步驟。許多開放權重模型現在都使用 DPO 的變體。

深度解析

關鍵洞見（Rafailov 等人，2023）：最優策略與獎勵函數之間存在封閉形式的映射。變體包括：IPO、KTO、ORPO。偏好資料的品質比演算法本身更重要。

相關概念

← 所有術語