Une alternative au RLHF pour l'alignement. Le DPO optimise directement le modèle en utilisant des paires de réponses préférées/rejetées, sans modèle de récompense séparé ni RL. Plus simple, plus stable, moins de calcul.
Pourquoi c'est important
Le DPO a démocratisé l'alignement. Le pipeline multi-étapes du RLHF est capricieux ; le DPO le ramène à une seule étape. Beaucoup de modèles open-weight utilisent maintenant des variantes du DPO.
En profondeur
L'insight clé (Rafailov et al., 2023) : un mapping en forme fermée entre la politique optimale et la fonction de récompense. Variantes : IPO, KTO, ORPO. La qualité des données de préférence compte plus que l'algorithme.