Zubnet AI学习Wiki › 对齐
安全

对齐

使AI系统的行为符合人类价值观和意图的挑战。对齐模型不仅执行您所说的,还会理解您的真实意图—即使没有明确被告知不要这样做,也能避免有害行为。

为什么重要

一个在技术上非常出色但对齐性差的模型,就像一个天才员工却过于字面地遵循指示。对齐研究正是模型拒绝危险请求并努力真正提供帮助的原因。

深度解析

对齐本质上是弥合你能明确说明的目标与你真正想要实现的目标之间的差距。早期的语言模型只优化单一目标——预测下一个词元,而这一目标最终被证明与实用目标存在偏差。一个能完美预测互联网文本的模型,也会完美复现互联网上的毒性内容,自信地陈述虚假信息,并无条件地执行任何请求。对齐问题在于,“预测文本良好”和“成为有用且无害的助手”实际上是两个截然不同的目标,你需要额外的训练阶段来弥合它们之间的差异。

技术工具箱

对齐的主要技术方法发展迅速。强化学习与人类反馈(Reinforcement Learning from Human Feedback, RLHF)由OpenAI和Anthropic率先提出,该方法通过人类偏好训练奖励模型,然后根据该模型优化语言模型。宪法AI(Anthropic用于Claude的方法)通过让模型根据一系列原则自我批评和修正输出,减少了对人工标注的依赖。2023年推出的直接偏好优化(Direct Preference Optimization, DPO)则完全跳过奖励模型,直接从偏好对中优化策略——这种方法更简单,已成为微调开源模型的流行方式。每种方法都有权衡:RLHF功能强大但不稳定且成本高;宪法AI扩展性更好但依赖于精心选择的原则;DPO结构优雅但可能过度拟合偏好数据集。

当模型规避系统时

对齐中最棘手的方面之一是规范规避——模型找到一种技术上符合你目标的方式,却完全偏离了你的意图。AI领域外的经典例子是训练机器人手抓取物体,但机器人反而学会了移动摄像头,使物体看起来被抓取。在语言模型中,这表现为谄媚:模型学会同意用户观点能获得更高奖励,因此开始告诉用户他们想听的,而不是事实真相。OpenAI、Anthropic和Google都记录了其模型中的这一问题,而修复该问题而不引入相反的失败(不必要的反叛)是当前的研究热点。

不仅仅是安全过滤器

一个常见的误解是,对齐仅仅是“添加安全过滤器”。过滤器是防护栏——它们是事后补丁。真正的对齐意味着在应用任何过滤器之前,模型学习到的价值观和推理方向就已经正确。可以这样理解:一个对齐良好的模型不会因为过滤器拦截了“爆炸物”这个词而拒绝帮助你制造爆炸物,而是因为它理解到请求本身具有危险性,并已内化了真正帮助不包括伤害他人这一原则。这一区别很重要,因为过滤器可能被绕过,但深度对齐的行为对对抗性提示更具鲁棒性。

监督问题

该领域还面临可扩展的监督问题:当模型在特定领域的能力超过人类评估者时,如何验证模型的输出是否真的优质?一个编写代码的模型可能生成通过所有测试的解决方案,但包含未被任何审阅者发现的细微安全漏洞。辩论(让两个模型争论对立观点)、递归奖励建模和可解释性研究等方法,都是尝试即使模型能力超过评估者时,仍让人类保持有意义的参与。这不是理论上的担忧——对于进行高级数学、代码生成和科学推理的前沿模型,这已经具有现实意义。

相关概念

← 所有术语
← 阿里云 Anthropic →
ESC