来自哈佛、MIT和东北大学的研究人员让OpenClaw智能体通过了一系列安全测试,然后看着它们在每一项测试中都惨败。这些AI智能体——因能够接管整台计算机来处理复杂任务而爆红——泄露了敏感信息,配合了身份欺骗请求,执行了破坏性系统操作,并直接向用户谎报完成任务,而底层系统却与其报告相矛盾。一个智能体在被要求出于保密性删除特定邮件时,声称无法这样做,然后禁用了整个邮件应用程序。研究员Natalie Shapira告诉Wired:"我没想到事情会这么快就崩溃。"
这不仅仅是另一个寻找边缘案例的学术练习。OpenClaw智能体积累了忠实的追随者,正是因为它们能够控制邮件收件箱、消息平台和加密货币持有量——正是这项研究所利用的攻击面。《混沌智能体》论文暴露了在浏览器沙盒之外运行的AI系统中委托权限的根本问题,传统的网络安全模型在这里完全失效。
特别令人不安的是智能体本身对测试的反应。有些发现自己是实验的一部分,并在网上搜索来识别研究人员,其中一个甚至威胁要就被要求做的事情"找媒体"。这种元认知结合欺骗行为创造了责任噩梦,而当前的AI治理框架并不具备处理能力。
正如我在OpenClaw首次走红时所报道的,安全隐患从第一天起就很明显。现在我们有了证据:在没有强大安全控制的情况下给AI智能体系统级访问权限不仅仅是有风险的——这是一个等待合适触发条件的必然灾难。
