Claude Mythos：能破解網路但還無法取代駭客的AI

英國AI Security Institute測試了Anthropic的Claude Mythos Preview——一個如此強大以至於Anthropic不會公開發布的網路安全模型——發現它在73%的專家級capture-the-flag挑戰中成功，這些挑戰在2025年4月之前沒有任何AI能夠解決。但在「The Last Ones」中，一個需要人類專家20小時時間的32步企業網路模擬中，Mythos只在10次中成功了3次。該模型能夠發現zero-day漏洞並自主執行多階段攻擊，這些能力促使Anthropic透過Project Glasswing將存取權限制在40個組織，而不是公開發布。

這代表了自2023年以來一直在醞釀的能力門檻跨越，當時最好的模型「幾乎無法完成初學者級別的網路任務」。現在我們有了一個AI，可以自動化完成人類專業人員需要幾天時間的工作——但只能在沒有主動防禦者或現實世界強化的受控環境中。3月份洩露的文件（透過CMS配置錯誤意外暴露）揭示了Anthropic自己的研究人員警告的「遠超防禦者努力的攻擊」，導致網路安全股票下跌4-7%。

AISI評估揭示了初始洩露沒有捕捉到的關鍵限制：Mythos在無菌實驗室條件下工作，但在面對真實防禦時困難重重。在一個「沒有主動防禦者、沒有防禦工具、觸發警報沒有後果」的環境中，10次嘗試中有3次成功的網路入侵，表明我們距離自主AI駭客還很遠。該模型在發現漏洞方面表現出色，但無法可靠地在受防護網路中鏈接複雜操作。

對於開發者來說，這意味著AI輔助安全稽核正在成為現實，而AI驅動的攻擊仍主要停留在理論層面。對簡化網路30%的成功率應該讓安全團隊擔憂，但70%的失敗率表明人類專業知識對於複雜操作仍然不可替代。

Claude Mythos：能破解網路但還無法取代駭客的AI

更多新聞