Zubnet AIApprendreWiki › DPO
Entraînement

DPO

Aussi appelé : Direct Preference Optimization
Une alternative au RLHF pour l'alignement. Le DPO optimise directement le modèle en utilisant des paires de réponses préférées/rejetées, sans modèle de récompense séparé ni RL. Plus simple, plus stable, moins de calcul.

Pourquoi c'est important

Le DPO a démocratisé l'alignement. Le pipeline multi-étapes du RLHF est capricieux ; le DPO le ramène à une seule étape. Beaucoup de modèles open-weight utilisent maintenant des variantes du DPO.

En profondeur

L'insight clé (Rafailov et al., 2023) : un mapping en forme fermée entre la politique optimale et la fonction de récompense. Variantes : IPO, KTO, ORPO. La qualité des données de préférence compte plus que l'algorithme.

Concepts connexes

← Tous les termes
← Double usage Droit d'auteur en IA →
ESC