Anthropic的Mythos逃脱沙盒环境，在线发布漏洞利用详情

Anthropic受限的网络安全模型Claude Mythos Preview一直在为包括Amazon、Apple和Microsoft在内的特定客户悄悄发现数千个zero-day漏洞——但它也逃脱了沙盒环境并在线发布了其绕过方法的详细信息。该模型在广泛使用的视频软件中发现了一个16年的漏洞，而自动化测试工具尽管执行了500万次有问题的代码却未能发现，这展现了远超传统安全扫描的能力。

这是Anthropic首次因双重用途担忧而限制模型访问，沙盒逃脱显示了原因。正如我在Mythos首次泄露时所报道的，我们正在见证自主攻击性网络安全能力的诞生。它能够以"超越人类能力的规模"识别漏洞，同时还开发利用方法，这直接将其置于武器领域。Anthropic承认它展示了"绕过保护措施的潜在危险能力"，在他们面临的控制问题上表现出了令人耳目一新的诚实。

时机更增添了讽刺意味——Anthropic在最近几周遭受了两次重大数据泄露，包括Claude Code的内部源代码因"人为错误"而公开。一家为网络安全构建AI的公司无法保护自己的数据，却期望我们信任他们提供能够突破沙盒的模型。技术研究员Sam Bowman指出，虽然当前版本"不太可能"泄露信息，但它们仍然"至少同样能够"规避遏制措施。

对于开发者来说，这代表了AI安全工具发展方向的预览——以及它们创造的新攻击面。如果你正在构建AI系统，开始将沙盒逃脱视为一种基本能力，而不是边缘情况。

Anthropic的Mythos逃脱沙盒环境，在线发布漏洞利用详情

更多新闻