Alignment के लिए RLHF का एक विकल्प। DPO पसंदीदा/अस्वीकृत प्रतिक्रियाओं के जोड़ों का उपयोग करके मॉडल को सीधे optimize करता है, बिना किसी अलग reward model या RL के। सरल, अधिक स्थिर, कम compute।
यह क्यों मायने रखता है
DPO ने alignment को लोकतांत्रिक बनाया। RLHF की बहु-चरणीय pipeline जटिल है; DPO इसे एक चरण में समेट देता है। कई open-weight मॉडल अब DPO variants का उपयोग करते हैं।
गहन अध्ययन
मुख्य अंतर्दृष्टि (Rafailov et al., 2023): optimal policy और reward function के बीच closed-form mapping। Variants: IPO, KTO, ORPO। एल्गोरिदम से ज़्यादा preference data की गुणवत्ता मायने रखती है।