El insight clave (Rafailov et al., 2023): existe un mapeo de forma cerrada entre la política óptima y la función de recompensa. En lugar de entrenar un modelo de recompensa y luego usar RL para optimizar contra él (como hace RLHF), DPO incorpora la preferencia directamente en la función de pérdida del entrenamiento.
DPO engendró una familia de variantes: IPO (que evita el sobreajuste a los datos de preferencia), KTO (que funciona con señales binarias de thumbs-up/thumbs-down en lugar de pares), y ORPO (que combina fine-tuning supervisado y alineación en un solo paso). Cada variante intenta resolver limitaciones específicas del DPO original.
La calidad de los datos de preferencia importa más que la elección del algoritmo. Un dataset de preferencias bien curado con DPO supera a un dataset mediocre con el pipeline más sofisticado de RLHF. La lección: invierte en la calidad de las anotaciones de preferencia, no en la complejidad del método de optimización.