NVIDIA在KubeCon Europe上將其GPU的Dynamic Resource Allocation (DRA)驅動程式捐贈給雲端原生運算基金會,將所有權從廠商控制轉移到Kubernetes社群。該驅動程式處理Kubernetes叢集中的GPU資源分配,支援NVIDIA的Multi-Process Service和Multi-Instance GPU技術以實現更聰明的硬體共享。捐贈還包括對Kata Containers的GPU支援,將硬體加速擴展到機密運算環境。
這很重要,因為Kubernetes中的GPU編排一直是AI基礎設施團隊的持續痛點。正如我在報導NVIDIA之前對Kubernetes貢獻時所指出的,在叢集中有效管理GPU資源仍然是生產AI部署中最大的營運難題之一。將這個關鍵的基礎設施組件轉移到社群所有權意味著更快的迭代、更廣泛的相容性測試,以及為建構AI平台的組織減少廠商綁定擔憂。
沒有其他主要來源報導這一公告,這表明AI媒體仍然專注於更炫目的模型發布,而不是真正在規模上實現AI的不起眼的基礎設施工作。時機與NVIDIA更廣泛的推動在整個生態系統中標準化AI基礎設施組件相一致,特別是在AMD、Intel和建構自己AI晶片的雲端提供商競爭加劇的情況下。
對於在Kubernetes上執行AI工作負載的開發者來說,這改變了遊戲規則。團隊現在可以依賴社群維護的、廠商中立的GPU編排,而不是與NVIDIA專有工具搏鬥或建構自訂資源管理器。對動態重新配置和細粒度資源請求的支援應該使多租戶AI叢集變得更加實用。
