Google Gemini API 推出 Flex/Priority 层级，实现成本与速度的权衡

Google 为 Gemini API 推出了 Flex 和 Priority 推理层级，通过标准同步端点为开发者提供细粒度的成本性能控制。Flex 为延迟容忍的后台任务（如数据丰富或智能体"思考"过程）提供50%的价格节省，而 Priority 以高级定价为面向用户的关键应用提供最高可靠性。两个层级都消除了管理异步批处理作业的复杂性，同时提供专门的性能特征。

随着 AI 应用从简单聊天机器人成熟为复杂的智能体工作流，这解决了一个真正的基础设施痛点。开发者之前必须围绕两个完全不同的范式进行架构设计——用于交互功能的同步 API 和用于后台任务的异步批处理。这种架构分离产生了运营开销，并限制了基于紧急程度动态路由工作负载的能力。Google 的方法让你可以将所有内容视为标准 API 调用，同时仍然获得专业层级的经济效益。

这个时机表明 Google 正在回应来自 Anthropic 和 OpenAI 等提供商的竞争压力，它们在定价灵活性方面更加激进。然而，文章缺乏关于实际延迟差异、SLA 保证或"不太可靠"的 Flex 请求在实践中如何失败的关键细节。50%的成本降低很有吸引力，但如果不了解失败模式或典型响应时间，就很难评估 Flex 是否真正有用，还是只是推动更便宜、更不稳定的推理的一种方式。

对于生产应用，如果你已经在高峰使用期间遇到可靠性问题，Priority 层级可能会证明其高价是合理的。但大多数开发者应该从后台进程的 Flex 开始——最坏的情况是回到标准定价，而高容量智能体工作流50%的节省会迅速累积。

Google Gemini API 推出 Flex/Priority 层级，实现成本与速度的权衡

更多新闻