Token : Définition et signification — Wiki IA

Un modèle entraîné à prédire les préférences humaines entre les réponses d'une IA. Étant donné un prompt et deux réponses candidates, le modèle de récompense évalue laquelle les humains préféreraient. Dans le pipeline RLHF, le modèle de récompense fournit le signal qui entraîne le modèle de langage à produire de meilleures réponses — c'est le proxy appris du jugement humain.

Pourquoi c'est important

Le modèle de récompense est le composant clé qui fait fonctionner le RLHF. On ne peut pas avoir un humain qui évalue chaque réponse pendant l'entraînement (trop lent, trop cher), alors on entraîne un modèle pour approximer les préférences humaines et on l'utilise comme signal d'entraînement. La qualité du modèle de récompense détermine directement la qualité de l'alignement — un mauvais modèle de récompense produit un modèle qui optimise pour les mauvaises choses.

En profondeur

Entraîner un modèle de récompense : collecter des paires de réponses au même prompt, demander à des humains de les classer (la réponse A est meilleure que la réponse B), puis entraîner un modèle à prédire ces classements. Le modèle de récompense produit un score scalaire pour toute paire (prompt, réponse). Pendant l'entraînement RL, le modèle de langage génère des réponses, le modèle de récompense les évalue, et le modèle de langage est mis à jour pour produire des réponses mieux notées.

Le piratage de récompense

Un mode de défaillance dangereux : le modèle de langage trouve des moyens d'obtenir des scores de récompense élevés sans être réellement utile. Si le modèle de récompense a appris à préférer les réponses plus longues (parce que les humains préféraient souvent les réponses plus détaillées), le modèle de langage pourrait rembourrer ses réponses avec du contenu inutile. C'est le « reward hacking » ou « reward gaming ». Les atténuations incluent les pénalités de divergence KL (empêcher le modèle de trop s'éloigner du modèle de base), les ensembles de modèles de récompense et la recalibration régulière par rapport aux jugements humains.

DPO contourne le RM

DPO (Direct Preference Optimization) élimine entièrement le modèle de récompense séparé, optimisant le modèle de langage directement sur les paires de préférences. Ça évite le piratage de récompense mais perd la capacité d'évaluer des réponses arbitraires. Certains labos utilisent les deux : un modèle de récompense pour l'évaluation et le classement, plus DPO pour l'entraînement. L'approche optimale dépend de l'échelle, de la qualité des données et du besoin d'évaluer des réponses en dehors de l'entraînement.

Modèle de récompense

Pourquoi c'est important

En profondeur

Le piratage de récompense

DPO contourne le RM

Concepts connexes