AI 定價：定義與含義 — AI 維基

AI 供應商如何對其模型的使用收費。主流模式是按 token 定價 — 您需為所傳送（輸入）與接收（輸出）的 token 數量付費，輸出的 token 通常費用是輸入的 3 到 5 倍。其他模式包括按次收費、每月訂閱、承諾使用折扣與免費層級。價格戰異常激烈，兩年內成本已下降 10 到 100 倍。

為什麼重要

價格決定了你能建立什麼。每天進行10,000次API呼叫的應用程式，其存亡取決於每個token的成本。理解定價模型、比較服務供應商、並優化token使用量，是任何開發AI驅動產品的人的核心技能。

深度解析

大型語言模型的標準計價單位是 token — 大約等同於英文中四分之三的字長度。當你向 OpenAI 或 Anthropic 等 API 發送訊息時，會分別針對輸入 token（你傳送的內容）和輸出 token（模型生成的內容）收費。輸出 token 的費用較高，因為需要進行序列計算 — 模型必須逐個生成 token，這比平行處理輸入 token 更慢且更耗 GPU 資源。截至 2026 年初，尖端模型的價格範圍約為每百萬個輸入 token 約 2–15 美元，以及每百萬個輸出 token 約 8–60 美元，視供應商和模型等級而定。這聽起來可能很便宜，直到你意識到一個繁忙的應用程式服務 10 萬名用戶，每月可能輕易消耗數十億個 token。

價格崩盤

AI 定價的下跌速度遠超幾乎所有人的預期。OpenAI 的 GPT-3.5 於 2023 年初以每百萬個 token 2 美元的價格推出；到了 2024 年中，DeepSeek、Mistral 和 Google（透過 Gemini Flash）等供應商已提供品質相當的模型，價格降至每百萬個 token 0.10–0.25 美元。這在 18 個月內的價格下降幅度約為 10–50 倍，來自於三個趨勢的匯聚：硬體改進（H100 的推論效率約為 A100 的 3 倍）、軟體優化（連續批次處理、預測解碼和量化），以及競爭壓力（DeepSeek 的開放權重模型迫使商業供應商削減利潤）。這種趨勢持續 — 每一代新的推論晶片和服務框架都會進一步壓低成本。對開發者來說，這意味著六個月前對你應用場景來說費用過高的模型，現在可能已經變得負擔得起。

超越每 token 定價：其他定價模式

並非所有服務都適合採用每 token 定價。像 DALL-E 和 Stable Diffusion 這樣的圖像生成模型是按張收費（通常根據解析度，每張約 0.02–0.08 美元）。視頻模型則按生成視頻的秒數收費 — Runway 的 Gen-3 每秒約 0.05 美元，較長的視頻片段費用會迅速累積。語音模型則按字符或每分鐘音訊收費。嵌入模型雖然也是按 token 收費，但費用遠低於生成模型（通常每百萬個 token 約 0.01–0.10 美元）。一些供應商提供訂閱模式：ChatGPT Plus 每月 20 美元、Claude Pro 每月 20 美元，讓用戶在速率限制內無限使用最新模型。對企業用戶而言，承諾使用折扣（以每年消費 10 萬美元以上為條件，換取 20–40% 的目錄定價折扣）是標準做法。此外，多個供應商提供慷慨的免費層級：Google 的 Gemini API、Mistral 的 La Plateforme 和 Groq 都允許開發者在達到一定使用門檻前免費試用。

優化你的成本

降低 AI 成本最重要的杠杆不是與供應商議價 — 而是為任務選擇正確的模型。像 Claude Opus 或 GPT-4o 這樣的尖端模型對於分類、提取或簡單摘要來說過於強大；較小的模型如 Claude Haiku、Gemini Flash 或 Mistral Small 可以以 10–50 倍較低的成本完成這些任務，且準確度相當。提示工程也很重要：一個長達 2,000 token 的系統提示會在每次 API 呼叫中消耗這些 token，因此精簡提示可以在規模上節省費用。緩存是另一個強大的工具 — Anthropic 的提示緩存和 OpenAI 的自動緩存都讓你能夠以較低的費用重複使用相同的上下文，這對每次請求都傳送相同系統提示或文件上下文的應用尤其寶貴。最後，批次處理非緊急請求（使用 OpenAI 的 Batch API 或類似服務）通常會以接受較高延遲為代價，獲得 50% 的折扣。

隱藏的成本

token 定價是看得見的成本，但它並非全部。上下文視窗的使用至關重要：每次呼叫時將 128K token 的上下文視窗塞滿文件在技術上是可行的，但經濟上卻非常昂貴。像 OpenAI 的 o1 和 o3 這樣的推理模型會產生內部的「思考」token，即使你從未看到這些 token，你仍需為其付費 — 單個複雜查詢可能在可見回應之外消耗 10,000 個以上的思考 token。速率限制也會產生隱藏成本：如果你的供應商限制你每分鐘最多 1,000 次請求，而你的應用需要 5,000 次，你不是要排隊（增加延遲）就是需要配置多個 API 金鑰（增加複雜度）。別忘了出口費用、日誌費用，以及花費在建立重試邏輯、token 計數和費用監控上的工程時間。每 token 的標價只是真實成本方程式的一開始。

AI 定價