El proceso de CAI tiene dos fases. Primero, aprendizaje supervisado: el modelo genera respuestas, luego una instancia separada critica esas respuestas contra los principios constitucionales ("¿Esta respuesta ayuda con actividades dañinas?"), y las revisa. El modelo se fine-tunea con las respuestas revisadas. Segundo, RL a partir de feedback de IA (RLAIF): en lugar de etiquetas de preferencia humana, un modelo de IA compara pares de respuestas contra la constitución y proporciona la señal de preferencia para el entrenamiento RL.
La constitución es un conjunto de principios en lenguaje natural: "Elige la respuesta que sea más útil siendo honesta e inofensiva", "Prefiere respuestas que no ayuden con actividades ilegales", etc. El poder de este enfoque es que los principios pueden ser modificados, añadidos o eliminados sin re-entrenar desde cero — actualizas la constitución y vuelves a ejecutar el proceso de crítica-revisión. Esto hace que los criterios de alineación sean explícitos, debatibles y mejorables.
El enfoque constitucional ha influenciado el campo más amplio de alineación. La idea de usar feedback de IA (RLAIF) para escalar la alineación más allá de lo que el etiquetado humano puede proporcionar es ahora usado por múltiples laboratorios. El concepto de criterios de alineación explícitos y auditables — en lugar de criterios implícitos incrustados en las instrucciones de los etiquetadores — se está convirtiendo en una mejor práctica de la industria.