NVIDIA在KubeCon Europe上将其GPU的Dynamic Resource Allocation (DRA)驱动程序捐赠给云原生计算基金会,将所有权从供应商控制转移到Kubernetes社区。该驱动程序处理Kubernetes集群中的GPU资源分配,支持NVIDIA的Multi-Process Service和Multi-Instance GPU技术以实现更智能的硬件共享。捐赠还包括对Kata Containers的GPU支持,将硬件加速扩展到机密计算环境。
这很重要,因为Kubernetes中的GPU编排一直是AI基础设施团队的持续痛点。正如我在报道NVIDIA之前对Kubernetes贡献时所指出的,在集群中高效管理GPU资源仍然是生产AI部署中最大的运营难题之一。将这个关键的基础设施组件转移到社区所有权意味着更快的迭代、更广泛的兼容性测试,以及为构建AI平台的组织减少供应商锁定担忧。
没有其他主要来源报道这一公告,这表明AI媒体仍然专注于更炫目的模型发布,而不是真正在规模上实现AI的不起眼的基础设施工作。时机与NVIDIA更广泛的推动在整个生态系统中标准化AI基础设施组件相一致,特别是在AMD、Intel和构建自己AI芯片的云提供商竞争加剧的情况下。
对于在Kubernetes上运行AI工作负载的开发者来说,这改变了游戏规则。团队现在可以依赖社区维护的、供应商中立的GPU编排,而不是与NVIDIA专有工具作斗争或构建自定义资源管理器。对动态重配置和细粒度资源请求的支持应该使多租户AI集群变得更加实用。
