Zubnet AIApprendreWiki › RLAIF
Entraînement

RLAIF

Aussi appelé : RL from AI Feedback, apprentissage par renforcement à partir de retours IA
Une variante de RLHF où les labels de préférence proviennent d'un modèle IA plutôt que d'annotateurs humains. Un modèle IA puissant compare des paires de réponses et indique laquelle est meilleure, fournissant le signal de retour pour l'apprentissage par renforcement. Cela permet de mettre à l'échelle l'alignement au-delà du goulot d'étranglement de l'annotation humaine tout en maintenant une qualité raisonnable.

Pourquoi c'est important

RLAIF est la façon dont l'alignement passe à l'échelle. L'annotation humaine est coûteuse (10–50$+ par heure), lente et incohérente. Le retour IA est instantané, bon marché et infatigable. Constitutional AI (Anthropic) utilise RLAIF comme composant central — une IA critique les réponses par rapport à des principes, fournissant des données de préférence à grande échelle. La question clé est de savoir si le retour IA est suffisamment bon : il se base sur le jugement humain mais peut hériter et amplifier les biais.

En profondeur

Le processus : (1) générer plusieurs réponses à un prompt, (2) demander à un modèle IA puissant (le "juge") de comparer les paires et d'indiquer laquelle est meilleure, (3) utiliser ces préférences générées par l'IA pour entraîner un modèle de récompense ou appliquer DPO directement. Le modèle juge peut être guidé par des critères spécifiques ("préférer la réponse la plus utile, honnête et inoffensive") ou recevoir une constitution de principes.

Qualité du retour IA

La recherche montre que RLAIF peut égaler la qualité de RLHF pour de nombreuses tâches, surtout quand le modèle juge est significativement plus puissant que le modèle entraîné. L'écart est le plus grand pour les tâches subjectives (qualité d'écriture créative, sensibilité culturelle) où le jugement humain capture des nuances que le retour IA manque. L'approche pratique : utiliser RLAIF pour le gros des données d'entraînement et réserver l'annotation humaine coûteuse pour les cas limites et l'évaluation.

Boucles d'auto-amélioration

RLAIF permet l'auto-amélioration : un modèle génère des réponses, les juge et s'entraîne sur son propre retour. Ça semble pouvoir mener à une amélioration illimitée, mais en pratique, les gains plafonnent — un modèle ne peut pas juger de manière fiable des réponses meilleures que sa propre capacité. On ne peut pas se soulever par ses propres bretelles. C'est pourquoi utiliser un modèle juge plus puissant que celui entraîné est important pour une amélioration significative.

Concepts connexes

← Tous les termes
← Risque existentiel RLHF →