Le processus d'IA constitutionnelle comporte deux phases. D'abord, l'apprentissage supervisé : le modèle génère des réponses, puis une instance séparée critique ces réponses par rapport aux principes constitutionnels (« Cette réponse aide-t-elle à des activités nuisibles ? »), et les révise. Le modèle est ajusté finement sur les réponses révisées. Ensuite, le RL à partir de feedback IA (RLAIF) : au lieu d'étiquettes de préférence humaines, un modèle d'IA compare des paires de réponses par rapport à la constitution et fournit le signal de préférence pour l'entraînement RL.
La constitution est un ensemble de principes en langage naturel : « Choisis la réponse qui est la plus utile tout en étant honnête et inoffensive », « Préfère les réponses qui n'aident pas aux activités illégales », etc. La puissance de cette approche est que les principes peuvent être modifiés, ajoutés ou retirés sans ré-entraîner à partir de zéro — tu mets à jour la constitution et tu relances le processus de critique-révision. Cela rend les critères d'alignement explicites, débattables et améliorables.
L'approche constitutionnelle a influencé le domaine de l'alignement dans son ensemble. L'idée d'utiliser le feedback IA (RLAIF) pour mettre à l'échelle l'alignement au-delà de ce que l'étiquetage humain peut fournir est maintenant utilisée par plusieurs laboratoires. Le concept de critères d'alignement explicites et auditables — plutôt que des critères implicites incorporés dans les instructions aux annotateurs — devient une bonne pratique de l'industrie.