英国AI Security Institute测试了Anthropic的Claude Mythos Preview——一个如此强大以至于Anthropic不会公开发布的网络安全模型——发现它在73%的专家级capture-the-flag挑战中成功,这些挑战在2025年4月之前没有任何AI能够解决。但在"The Last Ones"中,一个需要人类专家20小时时间的32步企业网络模拟中,Mythos只在10次中成功了3次。该模型能够发现zero-day漏洞并自主执行多阶段攻击,这些能力促使Anthropic通过Project Glasswing将访问权限制在40个组织,而不是公开发布。

这代表了自2023年以来一直在酝酿的能力阈值跨越,当时最好的模型"几乎无法完成初学者级别的网络任务"。现在我们有了一个AI,可以自动化完成人类专业人员需要几天时间的工作——但只能在没有主动防御者或现实世界加固的受控环境中。3月份泄露的文档(通过CMS配置错误意外暴露)揭示了Anthropic自己的研究人员警告的"远超防御者努力的攻击",导致网络安全股票下跌4-7%。

AISI评估揭示了初始泄露没有捕捉到的关键限制:Mythos在无菌实验室条件下工作,但在面对真实防御时困难重重。在一个"没有主动防御者、没有防御工具、触发警报没有后果"的环境中,10次尝试中有3次成功的网络入侵,表明我们距离自主AI黑客还很远。该模型在发现漏洞方面表现出色,但无法可靠地在受防护网络中链接复杂操作。

对于开发者来说,这意味着AI辅助安全审计正在成为现实,而AI驱动的攻击仍主要停留在理论层面。对简化网络30%的成功率应该让安全团队担忧,但70%的失败率表明人类专业知识对于复杂操作仍然不可替代。