O processo de CAI tem duas fases. Primeiro, aprendizado supervisionado: o modelo gera respostas, depois uma instância separada critica essas respostas contra os princípios constitucionais ("Essa resposta ajuda com atividades prejudiciais?"), e as revisa. O modelo é ajustado nas respostas revisadas. Segundo, RL a partir de feedback de IA (RLAIF): em vez de rótulos de preferência humanos, um modelo de IA compara pares de respostas contra a constituição e fornece o sinal de preferência para o treinamento de RL.
A constituição é um conjunto de princípios em linguagem natural: "Escolha a resposta que é mais útil sendo honesta e inofensiva", "Prefira respostas que não ajudem com atividades ilegais", etc. O poder dessa abordagem é que princípios podem ser modificados, adicionados ou removidos sem retreinar do zero — você atualiza a constituição e re-executa o processo de crítica-revisão. Isso torna os critérios de alinhamento explícitos, debatíveis e melhoráveis.
A abordagem constitucional influenciou o campo mais amplo de alinhamento. A ideia de usar feedback de IA (RLAIF) para escalar o alinhamento além do que a rotulagem humana consegue fornecer é agora usada por múltiplos laboratórios. O conceito de critérios de alinhamento explícitos e auditáveis — em vez de critérios implícitos embutidos nas instruções dos anotadores — está se tornando uma melhor prática da indústria.