Zubnet AIसीखेंWiki › DPO
प्रशिक्षण

DPO

इसे यह भी कहते हैं: Direct Preference Optimization, प्रत्यक्ष वरीयता अनुकूलन
Alignment के लिए RLHF का एक विकल्प। DPO पसंदीदा/अस्वीकृत प्रतिक्रियाओं के जोड़ों का उपयोग करके मॉडल को सीधे optimize करता है, बिना किसी अलग reward model या RL के। सरल, अधिक स्थिर, कम compute।

यह क्यों मायने रखता है

DPO ने alignment को लोकतांत्रिक बनाया। RLHF की बहु-चरणीय pipeline जटिल है; DPO इसे एक चरण में समेट देता है। कई open-weight मॉडल अब DPO variants का उपयोग करते हैं।

गहन अध्ययन

मुख्य अंतर्दृष्टि (Rafailov et al., 2023): optimal policy और reward function के बीच closed-form mapping। Variants: IPO, KTO, ORPO। एल्गोरिदम से ज़्यादा preference data की गुणवत्ता मायने रखती है।

संबंधित अवधारणाएँ

← सभी शब्द
← Diffusion Transformer Dropout →
ESC