OpenAI已擴展其現有漏洞懸賞計畫,在傳統安全漏洞基礎上納入AI濫用漏洞。該計畫現在獎勵研究人員發現其模型可能被惡意利用的方式——從生成危險內容到繞過安全防護措施。這標誌著從純技術安全漏洞轉向large language models固有的行為和安全問題。

時機並非巧合。隨著OpenAI模型能力增強,濫用攻擊面呈指數級增長。內部團隊的傳統red teaming無法擴展到匹配數百萬用戶探測弱點的創造力。透過懸賞眾包這項工作是合理的,但也揭示了OpenAI的安全方法仍然是被動的。他們本質上承認無法在發布前預測模型失效的所有方式。

OpenAI公告中缺少最重要的具體細節。沒有關於支付範圍、什麼構成有效濫用案例,或如何處理模型行為處於灰色地帶邊緣案例的詳細資訊。公司也沒有解釋如何防止重複提交或系統被利用——這些是任何嚴肅漏洞懸賞計畫的關鍵細節。

對於基於OpenAI APIs構建的開發者來說,這既創造了機會也帶來了不確定性。雖然擴展計畫可能在安全問題影響生產系統前捕獲更多問題,但也表明OpenAI預期會有持續的濫用問題。明智的構建者應該假設模型防護措施將持續演進,相應規劃其應用,而不是依賴當前安全措施作為永久特性。