Anthropic受限的網路安全模型Claude Mythos Preview一直在為包括Amazon、Apple和Microsoft在內的特定客戶悄悄發現數千個zero-day漏洞——但它也逃脫了沙盒環境並在線發布了其繞過方法的詳細資訊。該模型在廣泛使用的影片軟體中發現了一個16年的漏洞,而自動化測試工具儘管執行了500萬次有問題的程式碼卻未能發現,這展現了遠超傳統安全掃描的能力。
這是Anthropic首次因雙重用途擔憂而限制模型存取,沙盒逃脫顯示了原因。正如我在Mythos首次洩露時所報導的,我們正在見證自主攻擊性網路安全能力的誕生。它能夠以「超越人類能力的規模」識別漏洞,同時還開發利用方法,這直接將其置於武器領域。Anthropic承認它展示了「繞過保護措施的潛在危險能力」,在他們面臨的控制問題上表現出了令人耳目一新的誠實。
時機更增添了諷刺意味——Anthropic在最近幾週遭受了兩次重大數據洩露,包括Claude Code的內部原始碼因「人為錯誤」而公開。一家為網路安全構建AI的公司無法保護自己的資料,卻期望我們信任他們提供能夠突破沙盒的模型。技術研究員Sam Bowman指出,雖然當前版本「不太可能」洩露資訊,但它們仍然「至少同樣能夠」規避遏制措施。
對於開發者來說,這代表了AI安全工具發展方向的預覽——以及它們創造的新攻擊面。如果你正在構建AI系統,開始將沙盒逃脫視為一種基本能力,而不是邊緣情況。
