Cloud Native Computing Foundation的AI專案幾乎倍增,因為企業在大規模執行推論工作負載時撞了牆。這種混亂不僅僅是運算問題——而是不可預測的需求高峰、專用硬體需求,以及當AI從展示走向真實應用時帶來的正式環境複雜性。
這種基礎設施危機是不可避免的。我們一直在用2015年的方式建構AI——把模型丟到伺服器上然後祈禱最好的結果。但推論不像web流量。它是波動的、資源飢渴的,而且經常需要特定的加速器。CNCF押注Kubernetes原生解決方案是有道理的,因為容器和編排是在企業規模上處理這種工作負載變化的唯一經過驗證的方法。
媒體報導中缺失的是這個領域實際上有多麼分散。每個雲端供應商都有自己的推論最佳化故事,每個硬體廠商都在推自己的runtime,開發者被困在拼接解決方案中,這些方案在流量模式變化時就會崩潰。CNCF專案旨在標準化這種混亂,但我們仍處於早期——這些工具大多數在解決昨天的問題,而明天的多模態、基於agent的工作負載將需要完全不同的基礎設施模式。
對於在正式環境中執行AI的團隊來說,這意味著要謹慎選擇戰鬥。基於Kubernetes的推論平台如KServe和Seldon正在變得更加成熟,但不要期待即插即用的解決方案。真正的價值在於這些工具正在建立的營運模式——自動擴展、模型版本控制和硬體抽象化,這些在AI工作負載變得更加複雜時會更重要。
