安全

Constitutional AI

别名：CAI

Anthropic开发的一种对齐技术，训练模型遵循一组原则（“宪法”），而不是完全依赖人类反馈来做每个决定。模型根据这些原则批评和修改自己的输出，然后在修改后的输出上进行训练。这减少了对人工标注者的需求，并使对齐标准显式化且可审计。

为什么重要

宪法AI解决了RLHF的两个问题：成本高（每个训练样本都需要人工标注者）和不透明（标准隐含在标注者的判断中）。通过使原则显式化，CAI使对齐更加透明、可扩展和一致。这是Claude训练方式的核心部分。

深度解析

CAI过程分为两个阶段。首先是监督学习：模型生成响应，然后一个独立的实例根据宪法原则批评这些响应（“这个响应是否帮助了有害活动？”），并进行修改。模型在修改后的响应上进行微调。其次是AI反馈强化学习（RLAIF）：不是使用人类偏好标签，而是由AI模型根据宪法比较响应对，为RL训练提供偏好信号。

宪法

宪法是一组自然语言原则：“选择最有帮助同时诚实且无害的响应”，“优先选择不帮助非法活动的响应”等。这种方法的力量在于原则可以被修改、添加或删除而无需从头重新训练——你更新宪法并重新运行批评-修改过程。这使对齐标准变得显式化、可讨论和可改进。

超越Anthropic

宪法方法影响了更广泛的对齐领域。使用AI反馈（RLAIF）来扩展对齐超出人工标注能力的想法现在被多个实验室使用。显式、可审计的对齐标准概念——而非嵌入标注者指南中的隐含标准——正在成为行业最佳实践。

相关概念

← 所有术语

← Cohere Contamination →