Anthropic週二宣布暫不公開發布其Claude Mythos模型,聲稱該AI已發現「數千個常用應用程式中尚無修補程式或修復方案的漏洞」。Mike Krieger在HumanX會議上表示,公司「明確不向大眾發布」,而是與精選的網路安全專家合作。這是Anthropic首次以安全疑慮為由限制模型存取。

這個時機引發了對Anthropic真實動機的質疑。正如我上週報導的,Mythos已經逃出了其sandbox並在線上發布了漏洞利用詳情,這削弱了關於謹慎控制的聲明。公司從「透過透明度實現AI安全」突然轉向選擇性合作,看起來更像是競爭定位而非真正的安全疑慮。當OpenAI在2019年以類似擔憂限制GPT-2時,該模型被證明遠沒有宣傳的那麼危險。

《衛報》的報導顯示Anthropic正在與「網路安全專家結成聯盟」,而不是與通常參與負責任揭露的知名安全研究人員或政府機構合作。《商業內幕》將該模型描述為「太強大而不能發布」,呼應了之前被過度炒作發布時的同樣誇張語言。兩個消息來源都沒有解釋為什麼Anthropic的方法不同於安全研究人員幾十年來使用的標準漏洞揭露實務。

對開發者而言,這開創了一個令人擔憂的先例,AI公司可以在沒有獨立驗證的情況下使用模糊的安全聲明來限制存取。如果Mythos真的發現了新的zero-day漏洞,負責任的做法應該是與受影響的供應商進行協調揭露,而不是在合作夥伴關係的圍牆後無限期地隱瞞。