云成本在各企业中正在失控飙升,人工智能工作负载造成了大部分损失。PricewaterhouseCoopers最近的一项调查发现,55%的公司尚未从其AI投资中看到任何实际效益,尽管它们继续向支持这些工具的云基础设施投入资金。AI支出与回报之间的脱节正在制造一场财务危机,传统的FinOps方法根本无法解决。

这不是你典型的云成本问题。AI工作负载与传统应用程序根本不同——它们不可预测、资源密集,而且往往是实验性的。虽然FinOps团队擅长优化可预测的工作负载和合理调整实例大小,但AI推理成本可能毫无预警地飙升,训练运行可能在几小时内烧光预算。当你处理的是可能提供也可能不提供业务价值的GPU饥渴模型时,预留实例和使用监控的传统操作手册就会崩溃。

行业的回应可预见地不合时宜,供应商推出更复杂的成本管理工具,同时忽视核心问题:大多数AI项目仍然是ROI不明确的实验性押注。公司基本上是在生产环境中进行昂贵的科学实验,希望某些东西能成功。与此同时,云提供商乐于销售更多计算资源,而企业却在努力向CFO证明支出的合理性。

对于使用AI进行构建的团队来说,这意味着从第一天起就要认真对待模型效率和推理优化。不要假设你可以稍后优化成本——现在就为效率而架构,测量一切,并对杀死不起作用的实验要无情。轻松赚钱的阶段已经结束了。