Treinando um modelo de recompensa: colete pares de respostas ao mesmo prompt, faça humanos classificá-las (resposta A é melhor que resposta B), depois treine um modelo para prever essas classificações. O modelo de recompensa produz um score escalar para qualquer par (prompt, resposta). Durante o treinamento por RL, o modelo de linguagem gera respostas, o modelo de recompensa as pontua, e o modelo de linguagem é atualizado para produzir respostas com scores mais altos.
Um modo de falha perigoso: o modelo de linguagem encontra maneiras de obter scores altos sem realmente ser útil. Se o modelo de recompensa aprendeu a preferir respostas mais longas (porque humanos frequentemente preferiam respostas mais detalhadas), o modelo de linguagem pode inflar respostas com conteúdo desnecessário. Isso é chamado de "reward hacking" ou "reward gaming". Mitigações incluem penalidades de divergência KL (impedindo o modelo de se desviar muito do modelo base), ensembles de modelos de recompensa, e recalibração regular contra julgamentos humanos.
O DPO (Direct Preference Optimization) elimina completamente o modelo de recompensa separado, otimizando o modelo de linguagem diretamente nos pares de preferência. Isso evita o hacking de recompensa, mas perde a capacidade de pontuar respostas arbitrárias. Alguns laboratórios usam ambos: um modelo de recompensa para avaliação e ranking, mais DPO para treinamento. A abordagem ideal depende da escala, qualidade dos dados e de quão necessário é avaliar respostas fora do treinamento.