Zubnet AIApprendreWiki › IA constitutionnelle
Sécurité

IA constitutionnelle

Aussi appelé : CAI
Une technique d'alignement développée par Anthropic où un modèle est entraîné à suivre un ensemble de principes (une « constitution ») plutôt que de dépendre uniquement du feedback humain pour chaque décision. Le modèle critique et révise ses propres sorties en fonction de ces principes, puis est entraîné sur les sorties révisées. Cela réduit le besoin d'annotateurs humains et rend les critères d'alignement explicites et auditables.

Pourquoi c'est important

L'IA constitutionnelle résout deux problèmes du RLHF : c'est coûteux (des annotateurs humains pour chaque exemple d'entraînement) et opaque (les critères sont implicites dans les jugements des annotateurs). En rendant les principes explicites, l'IA constitutionnelle rend l'alignement plus transparent, évolutif et cohérent. C'est une partie centrale de la façon dont Claude est entraîné.

En profondeur

Le processus d'IA constitutionnelle comporte deux phases. D'abord, l'apprentissage supervisé : le modèle génère des réponses, puis une instance séparée critique ces réponses par rapport aux principes constitutionnels (« Cette réponse aide-t-elle à des activités nuisibles ? »), et les révise. Le modèle est ajusté finement sur les réponses révisées. Ensuite, le RL à partir de feedback IA (RLAIF) : au lieu d'étiquettes de préférence humaines, un modèle d'IA compare des paires de réponses par rapport à la constitution et fournit le signal de préférence pour l'entraînement RL.

La constitution

La constitution est un ensemble de principes en langage naturel : « Choisis la réponse qui est la plus utile tout en étant honnête et inoffensive », « Préfère les réponses qui n'aident pas aux activités illégales », etc. La puissance de cette approche est que les principes peuvent être modifiés, ajoutés ou retirés sans ré-entraîner à partir de zéro — tu mets à jour la constitution et tu relances le processus de critique-révision. Cela rend les critères d'alignement explicites, débattables et améliorables.

Au-delà d'Anthropic

L'approche constitutionnelle a influencé le domaine de l'alignement dans son ensemble. L'idée d'utiliser le feedback IA (RLAIF) pour mettre à l'échelle l'alignement au-delà de ce que l'étiquetage humain peut fournir est maintenant utilisée par plusieurs laboratoires. Le concept de critères d'alignement explicites et auditables — plutôt que des critères implicites incorporés dans les instructions aux annotateurs — devient une bonne pratique de l'industrie.

Concepts connexes

← Tous les termes
← Hyperparamètres IA en cybersécurité →
ESC