OpenAI已扩展其现有漏洞悬赏计划,在传统安全漏洞基础上纳入AI滥用漏洞。该计划现在奖励研究人员发现其模型可能被恶意利用的方式——从生成危险内容到绕过安全防护措施。这标志着从纯技术安全漏洞转向large language models固有的行为和安全问题。
时机并非巧合。随着OpenAI模型能力增强,滥用攻击面呈指数级增长。内部团队的传统red teaming无法扩展到匹配数百万用户探测弱点的创造力。通过悬赏众包这项工作是合理的,但也揭示了OpenAI的安全方法仍然是被动的。他们本质上承认无法在发布前预测模型失效的所有方式。
OpenAI公告中缺少最重要的具体细节。没有关于支付范围、什么构成有效滥用案例,或如何处理模型行为处于灰色地带边缘案例的详细信息。公司也没有解释如何防止重复提交或系统被利用——这些是任何严肃漏洞悬赏计划的关键细节。
对于基于OpenAI APIs构建的开发者来说,这既创造了机会也带来了不确定性。虽然扩展计划可能在安全问题影响生产系统前捕获更多问题,但也表明OpenAI预期会有持续的滥用问题。明智的构建者应该假设模型防护措施将持续演进,相应规划其应用,而不是依赖当前安全措施作为永久特性。
