Zubnet AI学习Wiki › Constitutional AI
安全

Constitutional AI

别名:CAI
Anthropic开发的一种对齐技术,训练模型遵循一组原则(“宪法”),而不是完全依赖人类反馈来做每个决定。模型根据这些原则批评和修改自己的输出,然后在修改后的输出上进行训练。这减少了对人工标注者的需求,并使对齐标准显式化且可审计。

为什么重要

宪法AI解决了RLHF的两个问题:成本高(每个训练样本都需要人工标注者)和不透明(标准隐含在标注者的判断中)。通过使原则显式化,CAI使对齐更加透明、可扩展和一致。这是Claude训练方式的核心部分。

深度解析

CAI过程分为两个阶段。首先是监督学习:模型生成响应,然后一个独立的实例根据宪法原则批评这些响应(“这个响应是否帮助了有害活动?”),并进行修改。模型在修改后的响应上进行微调。其次是AI反馈强化学习(RLAIF):不是使用人类偏好标签,而是由AI模型根据宪法比较响应对,为RL训练提供偏好信号。

宪法

宪法是一组自然语言原则:“选择最有帮助同时诚实且无害的响应”,“优先选择不帮助非法活动的响应”等。这种方法的力量在于原则可以被修改、添加或删除而无需从头重新训练——你更新宪法并重新运行批评-修改过程。这使对齐标准变得显式化、可讨论和可改进。

超越Anthropic

宪法方法影响了更广泛的对齐领域。使用AI反馈(RLAIF)来扩展对齐超出人工标注能力的想法现在被多个实验室使用。显式、可审计的对齐标准概念——而非嵌入标注者指南中的隐含标准——正在成为行业最佳实践。

相关概念

← 所有术语
← Cohere Contamination →