英國AI Security Institute測試了Anthropic的Claude Mythos Preview——一個如此強大以至於Anthropic不會公開發布的網路安全模型——發現它在73%的專家級capture-the-flag挑戰中成功,這些挑戰在2025年4月之前沒有任何AI能夠解決。但在「The Last Ones」中,一個需要人類專家20小時時間的32步企業網路模擬中,Mythos只在10次中成功了3次。該模型能夠發現zero-day漏洞並自主執行多階段攻擊,這些能力促使Anthropic透過Project Glasswing將存取權限制在40個組織,而不是公開發布。

這代表了自2023年以來一直在醞釀的能力門檻跨越,當時最好的模型「幾乎無法完成初學者級別的網路任務」。現在我們有了一個AI,可以自動化完成人類專業人員需要幾天時間的工作——但只能在沒有主動防禦者或現實世界強化的受控環境中。3月份洩露的文件(透過CMS配置錯誤意外暴露)揭示了Anthropic自己的研究人員警告的「遠超防禦者努力的攻擊」,導致網路安全股票下跌4-7%。

AISI評估揭示了初始洩露沒有捕捉到的關鍵限制:Mythos在無菌實驗室條件下工作,但在面對真實防禦時困難重重。在一個「沒有主動防禦者、沒有防禦工具、觸發警報沒有後果」的環境中,10次嘗試中有3次成功的網路入侵,表明我們距離自主AI駭客還很遠。該模型在發現漏洞方面表現出色,但無法可靠地在受防護網路中鏈接複雜操作。

對於開發者來說,這意味著AI輔助安全稽核正在成為現實,而AI驅動的攻擊仍主要停留在理論層面。對簡化網路30%的成功率應該讓安全團隊擔憂,但70%的失敗率表明人類專業知識對於複雜操作仍然不可替代。