Zubnet AIApprendreWiki › Constitutional AI
Safety

Constitutional AI

CAI
Une technique d'alignement développée par Anthropic où un modèle est entraîné à suivre un ensemble de principes (une « constitution ») plutôt que de dépendre uniquement du feedback humain pour chaque décision. Le modèle critique et révise ses propres sorties à partir de ces principes, puis est entraîné sur les sorties révisées. Ça réduit le besoin d'annotateurs humains et rend les critères d'alignement explicites et auditables.

Pourquoi c'est important

Le Constitutional AI adresse deux problèmes du RLHF : il est coûteux (des annotateurs humains pour chaque exemple d'entraînement) et opaque (les critères sont implicites dans les jugements des annotateurs). En rendant les principes explicites, le CAI rend l'alignement plus transparent, scalable et cohérent. C'est une partie centrale de la façon dont Claude est entraîné.

Deep Dive

The CAI process has two phases. First, supervised learning: the model generates responses, then a separate instance critiques those responses against the constitutional principles ("Does this response help with harmful activities?"), and revises them. The model is fine-tuned on the revised responses. Second, RL from AI feedback (RLAIF): instead of human preference labels, an AI model compares response pairs against the constitution and provides the preference signal for RL training.

The Constitution

The constitution is a set of natural-language principles: "Choose the response that is most helpful while being honest and harmless," "Prefer responses that don't help with illegal activities," etc. The power of this approach is that principles can be modified, added, or removed without retraining from scratch — you update the constitution and re-run the critique-revision process. This makes alignment criteria explicit, debatable, and improvable.

Beyond Anthropic

The constitutional approach has influenced the broader alignment field. The idea of using AI feedback (RLAIF) to scale alignment beyond what human labeling can provide is now used by multiple labs. The concept of explicit, auditable alignment criteria — rather than implicit criteria embedded in labeler instructions — is becoming an industry best practice.

Concepts liés

← Tous les termes
← Computer Vision Contamination →