Cloud Native Computing Foundation的AI项目几乎翻倍,因为企业在大规模运行推理工作负载时撞了南墙。这种混乱不仅仅是计算问题——而是不可预测的需求峰值、专用硬件需求,以及当AI从演示走向真实应用时带来的生产复杂性。

这种基础设施危机是不可避免的。我们一直在用2015年的方式构建AI——把模型扔到服务器上然后祈祷最好的结果。但推理不像web流量。它是波动的、资源饥渴的,而且经常需要特定的加速器。CNCF押注Kubernetes原生解决方案是有道理的,因为容器和编排是在企业规模上处理这种工作负载变化的唯一经过验证的方法。

媒体报道中缺失的是这个领域实际上有多么分散。每个云供应商都有自己的推理优化故事,每个硬件厂商都在推自己的runtime,开发者被困在拼接解决方案中,这些方案在流量模式变化时就会崩溃。CNCF项目旨在标准化这种混乱,但我们仍处于早期——这些工具大多数在解决昨天的问题,而明天的多模态、基于agent的工作负载将需要完全不同的基础设施模式。

对于在生产环境中运行AI的团队来说,这意味着要谨慎选择战斗。基于Kubernetes的推理平台如KServe和Seldon正在变得更加成熟,但不要期待即插即用的解决方案。真正的价值在于这些工具正在建立的运维模式——自动扩展、模型版本控制和硬件抽象,这些在AI工作负载变得更加复杂时会更重要。