O insight chave (Rafailov et al., 2023): mapeamento em forma fechada entre política ótima e função de recompensa. Variantes: IPO, KTO, ORPO. A qualidade dos dados de preferência importa mais que o algoritmo.
RLHF requer treinar um modelo de recompensa, depois usar reinforce learning (PPO) para otimizar contra ele — um processo instável com muitos hiperparâmetros. DPO elimina ambas as etapas: dado um par (resposta boa, resposta ruim), ele ajusta diretamente os pesos do modelo para preferir a boa. Matematicamente equivalente ao RLHF com um modelo de recompensa implícito, mas em uma única passagem de treinamento.
DPO pode sofrer de overfitting em preferências específicas e às vezes é menos robusto que RLHF para tarefas complexas. Variantes como IPO (Azar et al.) adicionam regularização, KTO funciona com feedback unário (só bom/ruim sem pares), e ORPO integra alinhamento diretamente no ajuste fino supervisionado.