两个独立研究团队已经证明,针对Nvidia Ampere GPU的Rowhammer攻击现在可以实现完全的系统危害,从GPU内存破坏升级到对主机CPU的完全控制。这些攻击被称为GDDRHammer和GeForge,利用GDDR内存中的位翻转漏洞来获得对所有CPU内存的任意读/写访问。与之前仅能实现八个位翻转并降级神经网络输出的GPU Rowhammer研究不同,这些新攻击可以提供root级别的系统控制——但仅在IOMMU内存管理被禁用时有效,而这仍然是默认的BIOS设置。
这很重要,因为成本超过8000美元的高性能GPU在云环境中通常被数十个用户共享。2014年开始作为CPU特定攻击向量的问题现在已经跨越了组件边界,将GPU计算变成了整个系统的潜在后门。Rowhammer十年来的演进——从DDR3漏洞利用到DDR4绕过再到基于网络的攻击——已经达到了一个新的里程碑,GPU工作负载现在可以危害底层基础设施。
研究揭示了AI基础设施安全中的一个关键盲点。虽然云提供商多年来已经加固了CPU内存并实施了各种Rowhammer缓解措施,但GPU内存在很大程度上被忽视了。这些攻击需要物理访问或在GPU上执行恶意代码,限制了直接风险,但展示了共享AI基础设施如何创建传统安全模型无法解决的新攻击面。
对于在共享基础设施上运行AI工作负载的开发者来说,这突出了启用IOMMU保护和了解云提供商GPU隔离机制的重要性。随着AI从实验阶段转向生产阶段,攻击面在扩大——如果没有适当的隔离措施,你的神经网络训练作业理论上可能成为系统危害的载体。
