Zubnet AIAprenderWiki › Constitutional AI
Safety

Constitutional AI

CAI
Uma técnica de alinhamento desenvolvida pela Anthropic onde um modelo é treinado para seguir um conjunto de princípios (uma “constituição”) em vez de depender só de feedback humano para cada decisão. O modelo critica e revisa suas próprias saídas com base nesses princípios, e depois é treinado nas saídas revisadas. Isso reduz a necessidade de anotadores humanos e torna os critérios de alinhamento explícitos e auditáveis.

Por que importa

Constitutional AI aborda dois problemas do RLHF: é caro (anotadores humanos para cada exemplo de treinamento) e opaco (os critérios são implícitos nos julgamentos dos anotadores). Ao tornar os princípios explícitos, CAI torna o alinhamento mais transparente, escalável e consistente. É uma parte central de como o Claude é treinado.

Deep Dive

The CAI process has two phases. First, supervised learning: the model generates responses, then a separate instance critiques those responses against the constitutional principles ("Does this response help with harmful activities?"), and revises them. The model is fine-tuned on the revised responses. Second, RL from AI feedback (RLAIF): instead of human preference labels, an AI model compares response pairs against the constitution and provides the preference signal for RL training.

The Constitution

The constitution is a set of natural-language principles: "Choose the response that is most helpful while being honest and harmless," "Prefer responses that don't help with illegal activities," etc. The power of this approach is that principles can be modified, added, or removed without retraining from scratch — you update the constitution and re-run the critique-revision process. This makes alignment criteria explicit, debatable, and improvable.

Beyond Anthropic

The constitutional approach has influenced the broader alignment field. The idea of using AI feedback (RLAIF) to scale alignment beyond what human labeling can provide is now used by multiple labs. The concept of explicit, auditable alignment criteria — rather than implicit criteria embedded in labeler instructions — is becoming an industry best practice.

Conceitos relacionados

← Todos os termos
← Computer Vision Contamination →