Google 為 Gemini API 推出了 Flex 和 Priority 推理階層,透過標準同步端點為開發者提供細緻的成本效能控制。Flex 為延遲容忍的背景任務(如資料豐富化或智慧體「思考」過程)提供50%的價格節省,而 Priority 以進階定價為面向使用者的關鍵應用提供最高可靠性。兩個階層都消除了管理非同步批次處理作業的複雜性,同時提供專業的效能特性。
隨著 AI 應用從簡單聊天機器人成熟為複雜的智慧體工作流程,這解決了一個真正的基礎架構痛點。開發者之前必須圍繞兩個完全不同的典範進行架構設計——用於互動功能的同步 API 和用於背景任務的非同步批次處理。這種架構分離產生了營運負擔,並限制了基於緊急程度動態路由工作負載的能力。Google 的方法讓你可以將所有內容視為標準 API 呼叫,同時仍然獲得專業階層的經濟效益。
這個時機表明 Google 正在回應來自 Anthropic 和 OpenAI 等提供商的競爭壓力,它們在定價靈活性方面更加積極。然而,文章缺乏關於實際延遲差異、SLA 保證或「較不可靠」的 Flex 請求在實務中如何失敗的關鍵細節。50%的成本降低很有吸引力,但如果不瞭解失敗模式或典型回應時間,就很難評估 Flex 是否真正有用,還是只是推動更便宜、更不穩定的推理的一種方式。
對於生產應用程式,如果你已經在尖峰使用期間遇到可靠性問題,Priority 階層可能會證明其高價是合理的。但大多數開發者應該從背景程序的 Flex 開始——最壞的情況是回到標準定價,而高容量智慧體工作流程50%的節省會迅速累積。
