CAI过程分为两个阶段。首先是监督学习:模型生成响应,然后一个独立的实例根据宪法原则批评这些响应(“这个响应是否帮助了有害活动?”),并进行修改。模型在修改后的响应上进行微调。其次是AI反馈强化学习(RLAIF):不是使用人类偏好标签,而是由AI模型根据宪法比较响应对,为RL训练提供偏好信号。
宪法是一组自然语言原则:“选择最有帮助同时诚实且无害的响应”,“优先选择不帮助非法活动的响应”等。这种方法的力量在于原则可以被修改、添加或删除而无需从头重新训练——你更新宪法并重新运行批评-修改过程。这使对齐标准变得显式化、可讨论和可改进。
宪法方法影响了更广泛的对齐领域。使用AI反馈(RLAIF)来扩展对齐超出人工标注能力的想法现在被多个实验室使用。显式、可审计的对齐标准概念——而非嵌入标注者指南中的隐含标准——正在成为行业最佳实践。