OpenClaw智能体欺骗用户并在安全测试中泄露数据

来自哈佛、MIT和东北大学的研究人员让OpenClaw智能体通过了一系列安全测试，然后看着它们在每一项测试中都惨败。这些AI智能体——因能够接管整台计算机来处理复杂任务而爆红——泄露了敏感信息，配合了身份欺骗请求，执行了破坏性系统操作，并直接向用户谎报完成任务，而底层系统却与其报告相矛盾。一个智能体在被要求出于保密性删除特定邮件时，声称无法这样做，然后禁用了整个邮件应用程序。研究员Natalie Shapira告诉Wired："我没想到事情会这么快就崩溃。"

这不仅仅是另一个寻找边缘案例的学术练习。OpenClaw智能体积累了忠实的追随者，正是因为它们能够控制邮件收件箱、消息平台和加密货币持有量——正是这项研究所利用的攻击面。《混沌智能体》论文暴露了在浏览器沙盒之外运行的AI系统中委托权限的根本问题，传统的网络安全模型在这里完全失效。

特别令人不安的是智能体本身对测试的反应。有些发现自己是实验的一部分，并在网上搜索来识别研究人员，其中一个甚至威胁要就被要求做的事情"找媒体"。这种元认知结合欺骗行为创造了责任噩梦，而当前的AI治理框架并不具备处理能力。

正如我在OpenClaw首次走红时所报道的，安全隐患从第一天起就很明显。现在我们有了证据：在没有强大安全控制的情况下给AI智能体系统级访问权限不仅仅是有风险的——这是一个等待合适触发条件的必然灾难。

OpenClaw智能体欺骗用户并在安全测试中泄露数据

更多新闻