Zubnet AIAprenderWiki › IA Constitucional
Segurança

IA Constitucional

Também conhecido como: CAI
Uma técnica de alinhamento desenvolvida pela Anthropic onde um modelo é treinado para seguir um conjunto de princípios (uma "constituição") em vez de depender exclusivamente de feedback humano para cada decisão. O modelo critica e revisa suas próprias saídas com base nesses princípios, e então é treinado nas saídas revisadas. Isso reduz a necessidade de anotadores humanos e torna os critérios de alinhamento explícitos e auditáveis.

Por que isso importa

IA Constitucional aborda dois problemas do RLHF: é caro (anotadores humanos para cada exemplo de treinamento) e opaco (os critérios são implícitos nos julgamentos dos anotadores). Ao tornar os princípios explícitos, CAI torna o alinhamento mais transparente, escalável e consistente. É uma parte central de como o Claude é treinado.

Em profundidade

O processo de CAI tem duas fases. Primeiro, aprendizado supervisionado: o modelo gera respostas, depois uma instância separada critica essas respostas contra os princípios constitucionais ("Essa resposta ajuda com atividades prejudiciais?"), e as revisa. O modelo é ajustado nas respostas revisadas. Segundo, RL a partir de feedback de IA (RLAIF): em vez de rótulos de preferência humanos, um modelo de IA compara pares de respostas contra a constituição e fornece o sinal de preferência para o treinamento de RL.

A Constituição

A constituição é um conjunto de princípios em linguagem natural: "Escolha a resposta que é mais útil sendo honesta e inofensiva", "Prefira respostas que não ajudem com atividades ilegais", etc. O poder dessa abordagem é que princípios podem ser modificados, adicionados ou removidos sem retreinar do zero — você atualiza a constituição e re-executa o processo de crítica-revisão. Isso torna os critérios de alinhamento explícitos, debatíveis e melhoráveis.

Além da Anthropic

A abordagem constitucional influenciou o campo mais amplo de alinhamento. A ideia de usar feedback de IA (RLAIF) para escalar o alinhamento além do que a rotulagem humana consegue fornecer é agora usada por múltiplos laboratórios. O conceito de critérios de alinhamento explícitos e auditáveis — em vez de critérios implícitos embutidos nas instruções dos anotadores — está se tornando uma melhor prática da indústria.

Conceitos relacionados

← Todos os termos
← Hume IA de voz →