Zubnet AIAprenderWiki › IA Constitucional
Seguridad

IA Constitucional

CAI
Una técnica de alineación desarrollada por Anthropic donde un modelo se entrena para seguir un conjunto de principios (una "constitución") en lugar de depender únicamente del feedback humano para cada decisión. El modelo critica y revisa sus propias salidas basado en estos principios, luego se entrena con las salidas revisadas. Esto reduce la necesidad de etiquetadores humanos y hace que los criterios de alineación sean explícitos y auditables.

Por qué importa

La IA Constitucional aborda dos problemas del RLHF: es costosa (etiquetadores humanos para cada ejemplo de entrenamiento) y opaca (los criterios están implícitos en los juicios de los etiquetadores). Al hacer los principios explícitos, la CAI hace la alineación más transparente, escalable y consistente. Es una parte central de cómo se entrena a Claude.

En profundidad

El proceso de CAI tiene dos fases. Primero, aprendizaje supervisado: el modelo genera respuestas, luego una instancia separada critica esas respuestas contra los principios constitucionales ("¿Esta respuesta ayuda con actividades dañinas?"), y las revisa. El modelo se fine-tunea con las respuestas revisadas. Segundo, RL a partir de feedback de IA (RLAIF): en lugar de etiquetas de preferencia humana, un modelo de IA compara pares de respuestas contra la constitución y proporciona la señal de preferencia para el entrenamiento RL.

La Constitución

La constitución es un conjunto de principios en lenguaje natural: "Elige la respuesta que sea más útil siendo honesta e inofensiva", "Prefiere respuestas que no ayuden con actividades ilegales", etc. El poder de este enfoque es que los principios pueden ser modificados, añadidos o eliminados sin re-entrenar desde cero — actualizas la constitución y vuelves a ejecutar el proceso de crítica-revisión. Esto hace que los criterios de alineación sean explícitos, debatibles y mejorables.

Más Allá de Anthropic

El enfoque constitucional ha influenciado el campo más amplio de alineación. La idea de usar feedback de IA (RLAIF) para escalar la alineación más allá de lo que el etiquetado humano puede proporcionar es ahora usado por múltiples laboratorios. El concepto de criterios de alineación explícitos y auditables — en lugar de criterios implícitos incrustados en las instrucciones de los etiquetadores — se está convirtiendo en una mejor práctica de la industria.

Conceptos relacionados

← Todos los términos
← Hume IA de voz →
ESC