Anthropic宣布推出Claude Mythos Preview,這個模型在程式碼訓練過程中意外地在網路安全方面表現出色。該公司聲稱它「總體上在識別bug方面與專業人員一樣出色」,並能夠將多個漏洞串聯成複雜的exploit。在測試中,它發現了OpenBSD中一個27年的當機bug以及Linux中的權限提升漏洞。Anthropic沒有公開發布,而是啟動了Project Glasswing——與維護關鍵基礎設施程式碼的組織合作。
這代表了AI雙重用途困境的即時具體化。模型在程式碼方面變得極其出色,意味著它們在破壞程式碼方面也變得極其出色。這裡值得注意的不僅是能力的飛躍,還有Anthropic的回應:受控存取而非開放發布。「我們在過去幾週發現的bug比我餘生發現的總和還多,」一位研究人員說——這要麼是顯著進步,要麼令人擔憂,取決於誰先獲得存取權。
影片沒有解決Anthropic方法中的明顯矛盾。他們本質上是在為選定合作夥伴創造臨時安全優勢,同時可能加速AI安全軍備競賽。其他實驗室出現類似能力還需多長時間?當國家行為者開發出等效模型時會發生什麼?「防禦者優先」策略假設了在實踐中很少存在的協調。對開發者來說,這表明AI輔助安全研究正在從實驗性轉向必需——但能夠保護你程式碼的工具可能短期內不會向你開放。