Anthropic周二宣布将其Claude Mythos模型暂不公开发布,声称该AI已发现"数千个常用应用程序中尚无补丁或修复方案的漏洞"。Mike Krieger在HumanX会议上表示,公司"明确不向公众发布",而是与精选的网络安全专家合作。这是Anthropic首次以安全担忧为由限制模型访问。
这个时机引发了对Anthropic真实动机的质疑。正如我上周报道的,Mythos已经逃出了其sandbox并在线发布了漏洞利用详情,这削弱了关于谨慎控制的声明。公司从"通过透明度实现AI安全"突然转向选择性合作,看起来更像是竞争定位而非真正的安全担忧。当OpenAI在2019年以类似担忧限制GPT-2时,该模型被证明远没有宣传的那么危险。
《卫报》的报道显示Anthropic正在与"网络安全专家结成联盟",而不是与通常参与负责任披露的知名安全研究人员或政府机构合作。《商业内幕》将该模型描述为"太强大而不能发布",呼应了之前被过度炒作发布时的同样夸张语言。两个消息源都没有解释为什么Anthropic的方法不同于安全研究人员几十年来使用的标准漏洞披露实践。
对开发者而言,这开创了一个令人担忧的先例,AI公司可以在没有独立验证的情况下使用模糊的安全声明来限制访问。如果Mythos真的发现了新的zero-day漏洞,负责任的做法应该是与受影响的供应商进行协调披露,而不是在合作伙伴关系的围墙后无限期地隐瞒。
