Google 为 Gemini API 推出了 Flex 和 Priority 推理层级,通过标准同步端点为开发者提供细粒度的成本性能控制。Flex 为延迟容忍的后台任务(如数据丰富或智能体"思考"过程)提供50%的价格节省,而 Priority 以高级定价为面向用户的关键应用提供最高可靠性。两个层级都消除了管理异步批处理作业的复杂性,同时提供专门的性能特征。
随着 AI 应用从简单聊天机器人成熟为复杂的智能体工作流,这解决了一个真正的基础设施痛点。开发者之前必须围绕两个完全不同的范式进行架构设计——用于交互功能的同步 API 和用于后台任务的异步批处理。这种架构分离产生了运营开销,并限制了基于紧急程度动态路由工作负载的能力。Google 的方法让你可以将所有内容视为标准 API 调用,同时仍然获得专业层级的经济效益。
这个时机表明 Google 正在回应来自 Anthropic 和 OpenAI 等提供商的竞争压力,它们在定价灵活性方面更加激进。然而,文章缺乏关于实际延迟差异、SLA 保证或"不太可靠"的 Flex 请求在实践中如何失败的关键细节。50%的成本降低很有吸引力,但如果不了解失败模式或典型响应时间,就很难评估 Flex 是否真正有用,还是只是推动更便宜、更不稳定的推理的一种方式。
对于生产应用,如果你已经在高峰使用期间遇到可靠性问题,Priority 层级可能会证明其高价是合理的。但大多数开发者应该从后台进程的 Flex 开始——最坏的情况是回到标准定价,而高容量智能体工作流50%的节省会迅速累积。
