Anthropic宣布推出Claude Mythos Preview,这个模型在代码训练过程中意外地在网络安全方面表现出色。该公司声称它"总体上在识别bug方面与专业人员一样出色",并能够将多个漏洞串联成复杂的exploit。在测试中,它发现了OpenBSD中一个27年的崩溃bug以及Linux中的权限提升漏洞。Anthropic没有公开发布,而是启动了Project Glasswing——与维护关键基础设施代码的组织合作。
这代表了AI双重用途困境的实时具体化。模型在代码方面变得极其出色,意味着它们在破坏代码方面也变得极其出色。这里值得注意的不仅是能力的飞跃,还有Anthropic的回应:受控访问而非开放发布。"我们在过去几周发现的bug比我余生发现的总和还多,"一位研究人员说——这要么是显著进步,要么令人担忧,取决于谁先获得访问权。
视频没有解决Anthropic方法中的明显矛盾。他们本质上是在为选定合作伙伴创造临时安全优势,同时可能加速AI安全军备竞赛。其他实验室出现类似能力还需多长时间?当国家行为者开发出等效模型时会发生什么?"防御者优先"策略假设了在实践中很少存在的协调。对开发者来说,这表明AI辅助安全研究正在从实验性转向必需——但能够保护你代码的工具可能短期内不会向你开放。