Le RLHF est un processus en plusieurs étapes, et comprendre chacune est essentiel pour saisir pourquoi ça fonctionne et où ça échoue. D'abord, on part d'un modèle qui a déjà été ajusté par fine-tuning supervisé (SFT) sur des paires instruction-réponse, pour qu'il puisse au minimum formater ses réponses correctement. Ensuite, on collecte des données de comparaison : des annotateurs humains voient deux réponses ou plus du modèle au même prompt et doivent les classer par qualité. Ces données de comparaison servent à entraîner un modèle de récompense séparé — un réseau de neurones qui prend une paire prompt-réponse et produit un score scalaire prédisant à quel point un humain préférerait cette réponse. Troisièmement, on utilise le modèle de récompense comme signal pour entraîner davantage le modèle principal via un algorithme d'apprentissage par renforcement, typiquement Proximal Policy Optimization (PPO). Le modèle génère des réponses, le modèle de récompense les note, et les paramètres du modèle sont mis à jour pour augmenter la récompense attendue. Un composant essentiel est la pénalité de divergence KL, qui empêche le modèle de trop s'éloigner de son point de départ SFT — sans elle, le modèle apprendrait rapidement à exploiter les particularités du modèle de récompense plutôt que de produire réellement de meilleures réponses.
Le modèle de récompense est à la fois la pièce maîtresse et le maillon faible de tout le processus. Il doit apprendre à prédire les préférences humaines à partir d'un ensemble limité de comparaisons, puis généraliser ces préférences à de nouveaux prompts et réponses. En pratique, les modèles de récompense peuvent développer des angles morts : ils peuvent apprendre à préférer les réponses plus longues (parce que les annotateurs assimilent souvent la longueur à la rigueur), les réponses qui sonnent confiantes indépendamment de leur exactitude, ou les réponses contenant un langage prudent (parce que les annotateurs favorisent les réponses prudentes sur les questions ambiguës). Ces particularités du modèle de récompense sont amplifiées pendant la phase de RL, un phénomène appelé piratage de récompense ou suroptimisation du modèle de récompense. On peut littéralement l'observer : plus on entraîne longtemps contre le modèle de récompense, plus le score de récompense monte, mais la préférence humaine réelle pour les sorties atteint un pic puis décline. C'est pourquoi les praticiens du RLHF plafonnent le nombre d'étapes de RL et évaluent régulièrement avec des jugements humains frais plutôt que de faire confiance aux scores du modèle de récompense.
Les défis pratiques du RLHF sont suffisamment importants pour que le domaine ait développé plusieurs alternatives. Direct Preference Optimization (DPO), introduit en 2023, élimine entièrement le modèle de récompense séparé et la phase de RL. Il optimise directement le modèle de langage sur les données de comparaison en utilisant une reformulation astucieuse de l'objectif RLHF comme perte de classification. DPO est plus simple à implémenter, plus stable à entraîner et nécessite moins de calcul. De nombreux modèles open-source utilisent maintenant DPO ou ses variantes (IPO, KTO, ORPO) au lieu du RLHF basé sur PPO. D'autres approches comme le RLAIF (RL from AI Feedback) remplacent les annotateurs humains par un autre modèle d'IA — le framework Constitutional AI d'Anthropic utilise cette approche, où le modèle critique et révise ses propres sorties selon un ensemble de principes. Ces alternatives comportent chacune des compromis : DPO est plus simple mais peut être moins expressif pour des structures de préférence complexes, tandis que le RLAIF passe mieux à l'échelle mais hérite des biais de l'IA qui fournit la rétroaction.
Le volet annotation humaine du RLHF est l'une de ses complexités les plus sous-estimées. La qualité, la cohérence et la composition démographique des annotateurs façonnent directement ce que le modèle apprend. Si vos annotateurs sont principalement des diplômés universitaires anglophones, le modèle apprend leurs préférences, qui peuvent ne pas se généraliser à d'autres populations. L'accord inter-annotateurs sur ce qui constitue une « meilleure » réponse est souvent étonnamment faible pour les questions ouvertes, ce qui signifie que le modèle de récompense apprend à partir d'étiquettes bruitées. Certains laboratoires y remédient avec des grilles détaillées, des sessions de calibration des annotateurs et un vote majoritaire entre plusieurs annotateurs par comparaison. D'autres utilisent des pipelines de données synthétiques où un modèle plus puissant génère les comparaisons. Le domaine cherche encore les meilleures pratiques, et le pipeline d'annotation est souvent le goulot d'étranglement — non pas parce que c'est techniquement difficile, mais parce que définir ce qui est « bon » est une question philosophiquement difficile quand on essaie de le spécifier assez précisément pour en faire un signal d'entraînement.