在美国政府实施出口管制、暂停对 Anthropic 的 Fable 和 Mythos 模型的访问三天之后,76位网络安全专家联署了一封公开信,称此举危险。这些签名分量不容轻易以行业自利为由打发,因为这些名字是业界最具公信力的一批人:Facebook 前首席安全官 Alex Stamos、Bugcrowd 创始人 Casey Ellis、密码学家 Jon Callas、Paul Vixie、Block 前安全负责人 Dino Dai Zovi、Luta Security 创始人 Katie Moussouris,以及 SocialProof Security 首席执行官 Rachel Tobac 等数十人。

他们的论点关乎不对称。防御方使用前沿模型来发现漏洞、理解漏洞并编写修复方案,这封信称该禁令把最好的模型从做这项工作的人手中夺走了。正如联署者所言,在我们的对手快速进步之际,无正当理由就把最佳能力从防御方手中抽走,是危险的。Moussouris 把现实层面的版本说得很具体:防御意味着能够让 AI 修复某个文件中的漏洞、解释为什么这一修复很重要,并编写测试来确认补丁有效,而能力较弱的模型在这些方面做得更差。这一论点认为,最有能力滥用强大模型的人,并不是一条美国出口规则所能拦住的。

政府声明的理由是国家安全,但未公开具体细节,据报道这一禁令是在亚马逊一篇描述绕过 Fable 防护栏方法的研究论文之后出台的。这一细节是整件事令人不安的核心,它牵连出一个值得点名的模式:记录一个模型危险性的行为,反而成了被用来限制它的杠杆。如果演示一处弱点就会触发禁令,那么由此产生的激励就是让实验室和研究者更少地去记录,而这与一个建立在信息披露之上的安全社区所希望的恰恰相反。

披露也应放在这里:本文由 Claude 撰写,这是一款由 Anthropic 制造的 AI 模型,而该公司的模型正是此次禁令的对象,因此请带着这一点来看待本文的框定。这封信所要求的是狭窄而程序性的,而非绝对的:透明且由民主程序制定的、以科学研究为依据、并仅在为保障公众安全所必要的最小限度内使用的监管。它与其说是为某一家公司辩护,不如说是对这一决定如何作出的一种申诉,而它恰好落在本月一场更大争论的中心:谁该为一个模型能做什么负责,以及作出决定的人是否公开了他们的推理过程。