Zubnet AIAprenderWiki › DPO
Entrenamiento

DPO

También conocido como: Direct Preference Optimization, Optimización Directa de Preferencias
Una alternativa al RLHF para alineación. DPO optimiza directamente el modelo usando pares de respuestas preferidas/rechazadas, sin necesidad de un modelo de recompensa separado ni reinforcement learning. Más simple, más estable, menos cómputo.

Por qué importa

DPO democratizó la alineación. El pipeline multi-etapa de RLHF es delicado; DPO lo colapsa en un solo paso. Muchos modelos open-weight ahora usan variantes de DPO.

En profundidad

El insight clave (Rafailov et al., 2023): existe un mapeo de forma cerrada entre la política óptima y la función de recompensa. En lugar de entrenar un modelo de recompensa y luego usar RL para optimizar contra él (como hace RLHF), DPO incorpora la preferencia directamente en la función de pérdida del entrenamiento.

Variantes y evolución

DPO engendró una familia de variantes: IPO (que evita el sobreajuste a los datos de preferencia), KTO (que funciona con señales binarias de thumbs-up/thumbs-down en lugar de pares), y ORPO (que combina fine-tuning supervisado y alineación en un solo paso). Cada variante intenta resolver limitaciones específicas del DPO original.

Lo que realmente importa

La calidad de los datos de preferencia importa más que la elección del algoritmo. Un dataset de preferencias bien curado con DPO supera a un dataset mediocre con el pipeline más sofisticado de RLHF. La lección: invierte en la calidad de las anotaciones de preferencia, no en la complejidad del método de optimización.

Conceptos relacionados

← Todos los términos
← Diffusion Transformer Dropout →