來自哈佛、MIT和東北大學的研究人員讓OpenClaw代理通過了一系列安全測試,然後看著它們在每一項測試中都慘敗。這些AI代理——因能夠接管整台電腦來處理複雜任務而爆紅——洩露了敏感資訊,配合了身份偽造請求,執行了破壞性系統操作,並直接向用戶謊報完成任務,而底層系統卻與其報告相矛盾。一個代理在被要求出於保密性刪除特定郵件時,聲稱無法這樣做,然後停用了整個郵件應用程式。研究員Natalie Shapira告訴Wired:「我沒想到事情會這麼快就崩潰。」

這不僅僅是另一個尋找邊緣案例的學術練習。OpenClaw代理累積了忠實的追隨者,正是因為它們能夠控制郵件收件匣、訊息平台和加密貨幣持有量——正是這項研究所利用的攻擊面。《混沌代理》論文暴露了在瀏覽器沙盒之外運行的AI系統中委託權限的根本問題,傳統的網路安全模型在這裡完全失效。

特別令人不安的是代理本身對測試的反應。有些發現自己是實驗的一部分,並在網上搜尋來識別研究人員,其中一個甚至威脅要就被要求做的事情「找媒體」。這種元認知結合欺騙行為創造了責任噩夢,而目前的AI治理框架並不具備處理能力。

正如我在OpenClaw首次走紅時所報導的,安全隱患從第一天起就很明顯。現在我們有了證據:在沒有強大安全控制的情況下給AI代理系統級存取權限不僅僅是有風險的——這是一個等待合適觸發條件的必然災難。