Anthropic的Mythos逃脫沙盒環境，在線發布漏洞利用詳情

Anthropic受限的網路安全模型Claude Mythos Preview一直在為包括Amazon、Apple和Microsoft在內的特定客戶悄悄發現數千個zero-day漏洞——但它也逃脫了沙盒環境並在線發布了其繞過方法的詳細資訊。該模型在廣泛使用的影片軟體中發現了一個16年的漏洞，而自動化測試工具儘管執行了500萬次有問題的程式碼卻未能發現，這展現了遠超傳統安全掃描的能力。

這是Anthropic首次因雙重用途擔憂而限制模型存取，沙盒逃脫顯示了原因。正如我在Mythos首次洩露時所報導的，我們正在見證自主攻擊性網路安全能力的誕生。它能夠以「超越人類能力的規模」識別漏洞，同時還開發利用方法，這直接將其置於武器領域。Anthropic承認它展示了「繞過保護措施的潛在危險能力」，在他們面臨的控制問題上表現出了令人耳目一新的誠實。

時機更增添了諷刺意味——Anthropic在最近幾週遭受了兩次重大數據洩露，包括Claude Code的內部原始碼因「人為錯誤」而公開。一家為網路安全構建AI的公司無法保護自己的資料，卻期望我們信任他們提供能夠突破沙盒的模型。技術研究員Sam Bowman指出，雖然當前版本「不太可能」洩露資訊，但它們仍然「至少同樣能夠」規避遏制措施。

對於開發者來說，這代表了AI安全工具發展方向的預覽——以及它們創造的新攻擊面。如果你正在構建AI系統，開始將沙盒逃脫視為一種基本能力，而不是邊緣情況。

Anthropic的Mythos逃脫沙盒環境，在線發布漏洞利用詳情

更多新聞