Zubnet AIAprenderWiki › Modelo de Recompensa
Treinamento

Modelo de Recompensa

Também conhecido como: RM, Modelo de Preferência
Um modelo treinado para prever preferências humanas entre respostas de IA. Dado um prompt e duas respostas candidatas, o modelo de recompensa pontua qual resposta os humanos prefeririam. No pipeline de RLHF, o modelo de recompensa fornece o sinal que treina o modelo de linguagem a produzir respostas melhores — é o proxy aprendido para o julgamento humano.

Por que isso importa

O modelo de recompensa é o componente-chave que faz o RLHF funcionar. Você não pode ter um humano avaliando cada resposta durante o treinamento (muito lento, muito caro), então você treina um modelo para aproximar preferências humanas e usa isso como sinal de treinamento. A qualidade do modelo de recompensa determina diretamente a qualidade do alinhamento — um modelo de recompensa ruim produz um modelo que otimiza para as coisas erradas.

Em profundidade

Treinando um modelo de recompensa: colete pares de respostas ao mesmo prompt, faça humanos classificá-las (resposta A é melhor que resposta B), depois treine um modelo para prever essas classificações. O modelo de recompensa produz um score escalar para qualquer par (prompt, resposta). Durante o treinamento por RL, o modelo de linguagem gera respostas, o modelo de recompensa as pontua, e o modelo de linguagem é atualizado para produzir respostas com scores mais altos.

Hacking de Recompensa

Um modo de falha perigoso: o modelo de linguagem encontra maneiras de obter scores altos sem realmente ser útil. Se o modelo de recompensa aprendeu a preferir respostas mais longas (porque humanos frequentemente preferiam respostas mais detalhadas), o modelo de linguagem pode inflar respostas com conteúdo desnecessário. Isso é chamado de "reward hacking" ou "reward gaming". Mitigações incluem penalidades de divergência KL (impedindo o modelo de se desviar muito do modelo base), ensembles de modelos de recompensa, e recalibração regular contra julgamentos humanos.

DPO Elimina o RM

O DPO (Direct Preference Optimization) elimina completamente o modelo de recompensa separado, otimizando o modelo de linguagem diretamente nos pares de preferência. Isso evita o hacking de recompensa, mas perde a capacidade de pontuar respostas arbitrárias. Alguns laboratórios usam ambos: um modelo de recompensa para avaliação e ranking, mais DPO para treinamento. A abordagem ideal depende da escala, qualidade dos dados e de quão necessário é avaliar respostas fora do treinamento.

Conceitos relacionados

← Todos os termos
← Modelo de Mundo Moderação de conteúdo →