Le processus : (1) générer plusieurs réponses à un prompt, (2) demander à un modèle IA puissant (le "juge") de comparer les paires et d'indiquer laquelle est meilleure, (3) utiliser ces préférences générées par l'IA pour entraîner un modèle de récompense ou appliquer DPO directement. Le modèle juge peut être guidé par des critères spécifiques ("préférer la réponse la plus utile, honnête et inoffensive") ou recevoir une constitution de principes.
La recherche montre que RLAIF peut égaler la qualité de RLHF pour de nombreuses tâches, surtout quand le modèle juge est significativement plus puissant que le modèle entraîné. L'écart est le plus grand pour les tâches subjectives (qualité d'écriture créative, sensibilité culturelle) où le jugement humain capture des nuances que le retour IA manque. L'approche pratique : utiliser RLAIF pour le gros des données d'entraînement et réserver l'annotation humaine coûteuse pour les cas limites et l'évaluation.
RLAIF permet l'auto-amélioration : un modèle génère des réponses, les juge et s'entraîne sur son propre retour. Ça semble pouvoir mener à une amélioration illimitée, mais en pratique, les gains plafonnent — un modèle ne peut pas juger de manière fiable des réponses meilleures que sa propre capacité. On ne peut pas se soulever par ses propres bretelles. C'est pourquoi utiliser un modèle juge plus puissant que celui entraîné est important pour une amélioration significative.