Zubnet AIApprendreWiki › RLAIF
Training

RLAIF

RL from AI Feedback
Une variante du RLHF où les étiquettes de préférence viennent d'un modèle d'IA plutôt que d'annotateurs humains. Un modèle d'IA fort compare des paires de réponses et indique laquelle est meilleure, fournissant le signal de feedback pour l'apprentissage par renforcement. Ça fait passer l'alignement au-delà du goulot d'étranglement de l'étiquetage humain tout en maintenant une qualité raisonnable.

Pourquoi c'est important

Le RLAIF est comment l'alignement passe à l'échelle. L'annotation humaine est coûteuse (10–50 $+ de l'heure), lente et incohérente. Le feedback d'IA est instantané, pas cher et infatigable. Le Constitutional AI (Anthropic) utilise le RLAIF comme composant central — une IA critique les réponses par rapport à des principes, fournissant des données de préférence à l'échelle. La question clé est de savoir si le feedback d'IA est assez bon : il démarre à partir du jugement humain mais peut hériter et amplifier des biais.

Deep Dive

The process: (1) generate multiple responses to a prompt, (2) have a strong AI model (the "judge") compare pairs and indicate which is better, (3) use these AI-generated preferences to train a reward model or apply DPO directly. The judge model can be prompted with specific criteria ("prefer the more helpful, honest, and harmless response") or given a constitution of principles.

Quality of AI Feedback

Research shows that RLAIF can match RLHF quality for many tasks, especially when the judge model is significantly stronger than the model being trained. The gap is largest for subjective tasks (creative writing quality, cultural sensitivity) where human judgment captures nuances that AI feedback misses. The practical approach: use RLAIF for the bulk of training data and reserve expensive human annotation for edge cases and evaluation.

Self-Improvement Loops

RLAIF enables self-improvement: a model generates responses, judges them, and trains on its own feedback. This sounds like it could lead to unlimited improvement, but in practice, the gains plateau — a model can't reliably judge responses that are better than its own capability. You can't pull yourself up by your bootstraps. This is why using a stronger judge model than the one being trained is important for meaningful improvement.

Concepts liés

← Tous les termes
← Reward Model RLHF →