Zubnet AI學習Wiki › AI 定價
基礎設施

AI 定價

別名:Token 定價、API 定價
AI 供應商如何對其模型的使用收費。主流模式是按 token 定價 — 您需為所傳送(輸入)與接收(輸出)的 token 數量付費,輸出的 token 通常費用是輸入的 3 到 5 倍。其他模式包括按次收費、每月訂閱、承諾使用折扣與免費層級。價格戰異常激烈,兩年內成本已下降 10 到 100 倍。

為什麼重要

價格決定了你能建立什麼。每天進行10,000次API呼叫的應用程式,其存亡取決於每個token的成本。理解定價模型、比較服務供應商、並優化token使用量,是任何開發AI驅動產品的人的核心技能。

深度解析

大型語言模型的標準計價單位是 token — 大約等同於英文中四分之三的字長度。當你向 OpenAI 或 Anthropic 等 API 發送訊息時,會分別針對輸入 token(你傳送的內容)和輸出 token(模型生成的內容)收費。輸出 token 的費用較高,因為需要進行序列計算 — 模型必須逐個生成 token,這比平行處理輸入 token 更慢且更耗 GPU 資源。截至 2026 年初,尖端模型的價格範圍約為每百萬個輸入 token 約 2–15 美元,以及每百萬個輸出 token 約 8–60 美元,視供應商和模型等級而定。這聽起來可能很便宜,直到你意識到一個繁忙的應用程式服務 10 萬名用戶,每月可能輕易消耗數十億個 token。

價格崩盤

AI 定價的下跌速度遠超幾乎所有人的預期。OpenAI 的 GPT-3.5 於 2023 年初以每百萬個 token 2 美元的價格推出;到了 2024 年中,DeepSeek、Mistral 和 Google(透過 Gemini Flash)等供應商已提供品質相當的模型,價格降至每百萬個 token 0.10–0.25 美元。這在 18 個月內的價格下降幅度約為 10–50 倍,來自於三個趨勢的匯聚:硬體改進(H100 的推論效率約為 A100 的 3 倍)、軟體優化(連續批次處理、預測解碼和量化),以及競爭壓力(DeepSeek 的開放權重模型迫使商業供應商削減利潤)。這種趨勢持續 — 每一代新的推論晶片和服務框架都會進一步壓低成本。對開發者來說,這意味著六個月前對你應用場景來說費用過高的模型,現在可能已經變得負擔得起。

超越每 token 定價:其他定價模式

並非所有服務都適合採用每 token 定價。像 DALL-E 和 Stable Diffusion 這樣的圖像生成模型是按張收費(通常根據解析度,每張約 0.02–0.08 美元)。視頻模型則按生成視頻的秒數收費 — Runway 的 Gen-3 每秒約 0.05 美元,較長的視頻片段費用會迅速累積。語音模型則按字符或每分鐘音訊收費。嵌入模型雖然也是按 token 收費,但費用遠低於生成模型(通常每百萬個 token 約 0.01–0.10 美元)。一些供應商提供訂閱模式:ChatGPT Plus 每月 20 美元、Claude Pro 每月 20 美元,讓用戶在速率限制內無限使用最新模型。對企業用戶而言,承諾使用折扣(以每年消費 10 萬美元以上為條件,換取 20–40% 的目錄定價折扣)是標準做法。此外,多個供應商提供慷慨的免費層級:Google 的 Gemini API、Mistral 的 La Plateforme 和 Groq 都允許開發者在達到一定使用門檻前免費試用。

優化你的成本

降低 AI 成本最重要的杠杆不是與供應商議價 — 而是為任務選擇正確的模型。像 Claude Opus 或 GPT-4o 這樣的尖端模型對於分類、提取或簡單摘要來說過於強大;較小的模型如 Claude Haiku、Gemini Flash 或 Mistral Small 可以以 10–50 倍較低的成本完成這些任務,且準確度相當。提示工程也很重要:一個長達 2,000 token 的系統提示會在每次 API 呼叫中消耗這些 token,因此精簡提示可以在規模上節省費用。緩存是另一個強大的工具 — Anthropic 的提示緩存和 OpenAI 的自動緩存都讓你能夠以較低的費用重複使用相同的上下文,這對每次請求都傳送相同系統提示或文件上下文的應用尤其寶貴。最後,批次處理非緊急請求(使用 OpenAI 的 Batch API 或類似服務)通常會以接受較高延遲為代價,獲得 50% 的折扣。

隱藏的成本

token 定價是看得見的成本,但它並非全部。上下文視窗的使用至關重要:每次呼叫時將 128K token 的上下文視窗塞滿文件在技術上是可行的,但經濟上卻非常昂貴。像 OpenAI 的 o1 和 o3 這樣的推理模型會產生內部的「思考」token,即使你從未看到這些 token,你仍需為其付費 — 單個複雜查詢可能在可見回應之外消耗 10,000 個以上的思考 token。速率限制也會產生隱藏成本:如果你的供應商限制你每分鐘最多 1,000 次請求,而你的應用需要 5,000 次,你不是要排隊(增加延遲)就是需要配置多個 API 金鑰(增加複雜度)。別忘了出口費用、日誌費用,以及花費在建立重試邏輯、token 計數和費用監控上的工程時間。每 token 的標價只是真實成本方程式的一開始。

相關概念

← 所有術語
← AI 基礎設施 AI 隱私 →
ESC