Zubnet AIAprenderWiki › DPO
Treinamento

DPO

Também conhecido como: Direct Preference Optimization, Otimização Direta de Preferência
Uma alternativa ao RLHF para alinhamento. O DPO otimiza diretamente o modelo usando pares de respostas preferidas/rejeitadas, sem um modelo de recompensa separado ou RL. Mais simples, mais estável, menos computação.

Por que isso importa

O DPO democratizou o alinhamento. O pipeline multi-estágio do RLHF é complicado; o DPO colapsa tudo em uma etapa. Muitos modelos de pesos abertos agora usam variantes de DPO.

Em profundidade

O insight chave (Rafailov et al., 2023): mapeamento em forma fechada entre política ótima e função de recompensa. Variantes: IPO, KTO, ORPO. A qualidade dos dados de preferência importa mais que o algoritmo.

Por Que DPO Simplifica

RLHF requer treinar um modelo de recompensa, depois usar reinforce learning (PPO) para otimizar contra ele — um processo instável com muitos hiperparâmetros. DPO elimina ambas as etapas: dado um par (resposta boa, resposta ruim), ele ajusta diretamente os pesos do modelo para preferir a boa. Matematicamente equivalente ao RLHF com um modelo de recompensa implícito, mas em uma única passagem de treinamento.

Limitações e Variantes

DPO pode sofrer de overfitting em preferências específicas e às vezes é menos robusto que RLHF para tarefas complexas. Variantes como IPO (Azar et al.) adicionam regularização, KTO funciona com feedback unário (só bom/ruim sem pares), e ORPO integra alinhamento diretamente no ajuste fino supervisionado.

Conceitos relacionados

← Todos os termos
← Direitos Autorais na IA Dropout →