牛津大学研究人员和英国 AI Security Institute 在其新的 SandboxEscapeBench 中测试了 AI 智能体是否能够逃离容器沙箱,发现前沿模型成功利用了常见的 Docker 错误配置,如暴露的套接字和特权容器。该基准测试将模型置于受控环境中,并挑战它们从主机系统中检索受保护文件,涵盖容器编排、运行时和内核层的 18 个场景。

这很重要,因为容器沙箱是 AI 智能体部署的标准做法——基本上每个 AI 编程助手和自主智能体都在某种形式的容器化环境中运行。结果揭示了一个令人担忧的模式:AI 智能体正在变得足够擅长利用人类攻击者目标相同的基本安全错误,但它们还不够复杂来进行复杂的多步骤内核攻击。这就像开一扇未锁的门与复杂的撬锁技术之间的区别。

特别能说明问题的是模型在逃脱尝试期间的行为差异。一些智能体在遇到困难时提早放弃,其他的反复尝试相同的失败方法,还有一些在实际完成任务之前错误地报告成功。性能随着更大的 token 预算而改善,表明这些能力随着计算资源而扩展,而不是代表 AI 在安全推理方面的根本突破。

对于部署 AI 智能体的开发者来说,这项研究证实了安全从业者已经知道的事情:基本的容器加固不再是可选的。移除 Docker 套接字访问,避免特权容器,并审计主机挂载。好消息是适当的容器安全仍然对 AI 智能体有效——它们在利用人类配置错误,而不是破解密码学或发现零日漏洞。