兩個獨立研究團隊已經證明,針對Nvidia Ampere GPU的Rowhammer攻擊現在可以實現完全的系統危害,從GPU記憶體破壞升級到對主機CPU的完全控制。這些攻擊被稱為GDDRHammer和GeForge,利用GDDR記憶體中的位元翻轉漏洞來獲得對所有CPU記憶體的任意讀/寫存取。與之前僅能實現八個位元翻轉並降級神經網路輸出的GPU Rowhammer研究不同,這些新攻擊可以提供root層級的系統控制——但僅在IOMMU記憶體管理被停用時有效,而這仍然是預設的BIOS設定。

這很重要,因為成本超過8000美元的高效能GPU在雲端環境中通常被數十個使用者共享。2014年開始作為CPU特定攻擊向量的問題現在已經跨越了元件邊界,將GPU運算變成了整個系統的潛在後門。Rowhammer十年來的演進——從DDR3漏洞利用到DDR4繞過再到基於網路的攻擊——已經達到了一個新的里程碑,GPU工作負載現在可以危害底層基礎設施。

研究揭示了AI基礎設施安全中的一個關鍵盲點。雖然雲端供應商多年來已經加固了CPU記憶體並實施了各種Rowhammer緩解措施,但GPU記憶體在很大程度上被忽視了。這些攻擊需要實體存取或在GPU上執行惡意程式碼,限制了直接風險,但展示了共享AI基礎設施如何創建傳統安全模型無法解決的新攻擊面。

對於在共享基礎設施上執行AI工作負載的開發者來說,這突顯了啟用IOMMU保護和瞭解雲端供應商GPU隔離機制的重要性。隨著AI從實驗階段轉向生產階段,攻擊面在擴大——如果沒有適當的隔離措施,你的神經網路訓練作業理論上可能成為系統危害的載體。