Google Gemini API 推出 Flex/Priority 階層，實現成本與速度的權衡

Google 為 Gemini API 推出了 Flex 和 Priority 推理階層，透過標準同步端點為開發者提供細緻的成本效能控制。Flex 為延遲容忍的背景任務（如資料豐富化或智慧體「思考」過程）提供50%的價格節省，而 Priority 以進階定價為面向使用者的關鍵應用提供最高可靠性。兩個階層都消除了管理非同步批次處理作業的複雜性，同時提供專業的效能特性。

隨著 AI 應用從簡單聊天機器人成熟為複雜的智慧體工作流程，這解決了一個真正的基礎架構痛點。開發者之前必須圍繞兩個完全不同的典範進行架構設計——用於互動功能的同步 API 和用於背景任務的非同步批次處理。這種架構分離產生了營運負擔，並限制了基於緊急程度動態路由工作負載的能力。Google 的方法讓你可以將所有內容視為標準 API 呼叫，同時仍然獲得專業階層的經濟效益。

這個時機表明 Google 正在回應來自 Anthropic 和 OpenAI 等提供商的競爭壓力，它們在定價靈活性方面更加積極。然而，文章缺乏關於實際延遲差異、SLA 保證或「較不可靠」的 Flex 請求在實務中如何失敗的關鍵細節。50%的成本降低很有吸引力，但如果不瞭解失敗模式或典型回應時間，就很難評估 Flex 是否真正有用，還是只是推動更便宜、更不穩定的推理的一種方式。

對於生產應用程式，如果你已經在尖峰使用期間遇到可靠性問題，Priority 階層可能會證明其高價是合理的。但大多數開發者應該從背景程序的 Flex 開始——最壞的情況是回到標準定價，而高容量智慧體工作流程50%的節省會迅速累積。

Google Gemini API 推出 Flex/Priority 階層，實現成本與速度的權衡

更多新聞