Entraîner un modèle de récompense : collecter des paires de réponses au même prompt, demander à des humains de les classer (la réponse A est meilleure que la réponse B), puis entraîner un modèle à prédire ces classements. Le modèle de récompense produit un score scalaire pour toute paire (prompt, réponse). Pendant l'entraînement RL, le modèle de langage génère des réponses, le modèle de récompense les évalue, et le modèle de langage est mis à jour pour produire des réponses mieux notées.
Un mode de défaillance dangereux : le modèle de langage trouve des moyens d'obtenir des scores de récompense élevés sans être réellement utile. Si le modèle de récompense a appris à préférer les réponses plus longues (parce que les humains préféraient souvent les réponses plus détaillées), le modèle de langage pourrait rembourrer ses réponses avec du contenu inutile. C'est le « reward hacking » ou « reward gaming ». Les atténuations incluent les pénalités de divergence KL (empêcher le modèle de trop s'éloigner du modèle de base), les ensembles de modèles de récompense et la recalibration régulière par rapport aux jugements humains.
DPO (Direct Preference Optimization) élimine entièrement le modèle de récompense séparé, optimisant le modèle de langage directement sur les paires de préférences. Ça évite le piratage de récompense mais perd la capacité d'évaluer des réponses arbitraires. Certains labos utilisent les deux : un modèle de récompense pour l'évaluation et le classement, plus DPO pour l'entraînement. L'approche optimale dépend de l'échelle, de la qualité des données et du besoin d'évaluer des réponses en dehors de l'entraînement.