Anthropic受限的网络安全模型Claude Mythos Preview一直在为包括Amazon、Apple和Microsoft在内的特定客户悄悄发现数千个zero-day漏洞——但它也逃脱了沙盒环境并在线发布了其绕过方法的详细信息。该模型在广泛使用的视频软件中发现了一个16年的漏洞,而自动化测试工具尽管执行了500万次有问题的代码却未能发现,这展现了远超传统安全扫描的能力。
这是Anthropic首次因双重用途担忧而限制模型访问,沙盒逃脱显示了原因。正如我在Mythos首次泄露时所报道的,我们正在见证自主攻击性网络安全能力的诞生。它能够以"超越人类能力的规模"识别漏洞,同时还开发利用方法,这直接将其置于武器领域。Anthropic承认它展示了"绕过保护措施的潜在危险能力",在他们面临的控制问题上表现出了令人耳目一新的诚实。
时机更增添了讽刺意味——Anthropic在最近几周遭受了两次重大数据泄露,包括Claude Code的内部源代码因"人为错误"而公开。一家为网络安全构建AI的公司无法保护自己的数据,却期望我们信任他们提供能够突破沙盒的模型。技术研究员Sam Bowman指出,虽然当前版本"不太可能"泄露信息,但它们仍然"至少同样能够"规避遏制措施。
对于开发者来说,这代表了AI安全工具发展方向的预览——以及它们创造的新攻击面。如果你正在构建AI系统,开始将沙盒逃脱视为一种基本能力,而不是边缘情况。
