Zubnet AIApprendreWiki › DPO
Training

DPO

Direct Preference Optimization
Une alternative au RLHF pour aligner les modèles de langage avec les préférences humaines. Au lieu d'entraîner un modèle de récompense séparé et ensuite d'utiliser l'apprentissage par renforcement pour optimiser contre lui (le pipeline RLHF), le DPO optimise directement le modèle de langage en utilisant des paires de réponses préférées et rejetées. C'est plus simple, plus stable et demande moins de compute que le RLHF tout en obtenant des résultats comparables.

Pourquoi c'est important

Le DPO a changé la game de l'alignement en la démocratisant. Le RLHF demande un pipeline multi-étapes complexe (collecter les préférences, entraîner le modèle de récompense, faire du PPO) qui est notoirement capricieux. Le DPO le réduit à une seule étape d'entraînement, rendant l'alignement par préférence accessible à de plus petites équipes et aux projets open-source. Beaucoup de modèles open-weight récents utilisent le DPO ou ses variantes au lieu du RLHF.

Deep Dive

The key insight of DPO (Rafailov et al., 2023) is mathematical: there's a closed-form mapping between the optimal policy under a reward function and the reward function itself. This means you can skip the reward model entirely and directly adjust the language model's probabilities to prefer the chosen response over the rejected one. The loss function is elegantly simple — it increases the log-probability of preferred responses relative to rejected ones, with a reference model as anchor to prevent the policy from drifting too far.

The Preference Data

Like RLHF, DPO needs preference data: pairs of responses where a human (or another model) has indicated which is better. The quality and diversity of these pairs matters enormously. If all your preference pairs are about formatting, the model learns to format well but doesn't improve on substance. The annotation guidelines, the diversity of prompts, and the quality of annotators are where alignment efforts actually succeed or fail — the algorithm is just the last step.

Variants and Evolution

DPO spawned a family of related techniques: IPO (Identity Preference Optimization) addresses overfitting issues, KTO (Kahneman-Tversky Optimization) works with binary feedback instead of pairwise comparisons, and ORPO (Odds Ratio Preference Optimization) combines supervised fine-tuning with preference alignment in a single step. The field is moving fast, but the core insight — you don't need RL to align models — remains foundational.

Concepts liés

← Tous les termes
← Distributed Training Dropout →