人工智能治理是复杂而必要的工作,需要决定谁可以构建什么,出现问题时谁负责,以及在研究突破与部署到数十亿人生活之间存在哪些安全边界。它同时在多个层面运作:国际协议(布莱切利宣言、G7广岛进程)、国家立法(欧盟人工智能法案、中国的生成式人工智能服务管理暂行办法)、行业自律(Anthropic的责任扩展政策、谷歌的人工智能原则)以及企业内部治理(伦理审查委员会、红队、部署检查清单)。这些层面单独运作时效果都不理想,它们之间的相互作用形成了一个真正难以驾驭的治理格局。
欧盟人工智能法案自2025年起分阶段实施,是全球最全面的人工智能专项立法。该法案按风险等级对人工智能系统进行分类:不可接受风险(直接禁止,如社会评分系统)、高风险(需通过符合性评估、文件要求和人工监督)、有限/最低风险(义务较轻)。该方法系统但复杂——开发通用人工智能模型的公司需遵守“GPAI”条款下的特定规则,包括透明度要求,对最强大的模型还需进行对抗性测试和事件报告义务。相比之下,美国采取了行业特定的监管方式:FDA对医疗设备中人工智能的指导原则、NIST的自愿性人工智能风险管理框架,以及各州法律的碎片化组合。中国则迅速出台了针对深度伪造、推荐算法和生成式人工智能的针对性法规,每项法规都有具体的注册和内容要求。对于全球运营的公司而言,合规意味着同时应对所有这些规定,而这些规定之间并不总是相互一致。
在组织内部,人工智能治理不仅仅是发布一份伦理声明。真正做得好的公司拥有具体机制:在模型发布前需获得安全团队的签字确认的预部署审查流程、在发布前由内部“对手”尝试破坏系统的红队演练、跟踪模型能力、限制和已知故障模式的模型卡和系统文档,以及在生产过程中出现问题时的事件响应计划。治理做得差的公司则把治理当作一种公关手段——网站上列出一些工程团队从未读过的原则。这种差异通常在组织架构图中可见:如果安全团队向产品团队汇报,当治理与发布截止日期冲突时,治理往往会被忽视。如果安全团队独立汇报,则有机会争取到治理的优先权。
人工智能行业的自律监管努力在有识之士中引发了真正的分歧。支持者指出具体成果:Anthropic的责任扩展政策定义了触发更严格安全要求的能力阈值,当模型变得更强大时。OpenAI的准备框架承诺在部署前进行特定评估。前沿模型论坛则汇聚了主要实验室共享安全研究。批评者则反驳称这些承诺是自愿的、自我评估的,并且经常屈从于竞争压力。当OpenAI于2024年解散其超级对齐团队时,展示了当自律监管与商业目标冲突时的脆弱性。诚实的评估是,自律监管确实产生了真正有用的安全实践,但仅靠自律是不够的——特别是对于影响公司用户群以外人群的风险。
一些基本的治理问题仍然未得到真正解决。前沿人工智能模型是否应像药品或核技术一样需要政府许可?如何监管一旦发布便无法召回的开源模型?当人工智能系统造成伤害时,责任应由模型开发者、部署该系统的公司还是触发该系统的用户承担?如何执行针对能力甚至其创造者都难以完全列举的人工智能系统的规则?在国际层面,如何防止公司和研究人员迁移到监管最宽松的司法管辖区,从而引发恶性竞争?这些问题不是修辞性问题,而是正在展开的政策辩论,具有真实后果,答案将决定人工智能治理是成为功能性系统,还是沦为纸面合规的练习。