Zubnet AI学习Wiki › AI 定价
基础设施

AI 定价

别名:Token 定价、API 定价

AI服务提供商如何对模型访问进行收费。主流模式是按令牌计费—您需为发送的输入令牌数和接收的输出令牌数付费,输出令牌通常比输入令牌贵3到5倍。其他模式包括按请求计费、月度订阅、承诺使用折扣和免费层级。价格战激烈,成本在两年内下降了10到100倍。

为什么重要

定价决定了你能构建什么。每天进行10,000次API调用的应用程序,其成败取决于每token的成本。理解定价模型、比较供应商并优化token使用,是构建AI驱动产品人员的核心技能。

深度解析

大型语言模型的标准计价单位是“token”—大约相当于英文中的四分之三个词。当你向OpenAI或Anthropic等API发送消息时,输入token(你发送的内容)和输出token(模型生成的内容)会分别计费。输出token的成本更高,因为它们需要顺序计算—模型必须逐个生成,这比并行处理输入token更慢且更耗费GPU资源。截至2026年初,前沿模型的输入token价格范围约为每百万个token 2至15美元,输出token价格范围约为每百万个token 8至60美元,具体取决于供应商和模型层级。这听起来可能很便宜,直到你意识到一个繁忙的应用程序服务10万用户时,每月可能轻松消耗数十亿个token。

价格暴跌

AI价格下降的速度远超几乎所有人的预期。OpenAI的GPT-3.5于2023年初以每百万个token 2美元的价格推出;到2024年年中,DeepSeek、Mistral和Google(通过Gemini Flash)等供应商已能提供质量相当的模型,价格降至每百万个token 0.10至0.25美元。这种在18个月内约10至50倍的价格下降,源于三个融合的力量:硬件改进(H100s的推理效率约为A100s的3倍)、软件优化(连续批处理、推测解码和量化)以及竞争压力(DeepSeek的开源模型迫使商业供应商削减利润)。这一趋势仍在继续—每一代新的推理芯片和服务器框架都会进一步降低成本。对于开发者来说,这意味着六个月前因成本过高而无法使用的模型,如今可能已变得负担得起。

超越按token计价:其他定价模式

并非所有内容都能完美适配按token计价。像DALL-E和Stable Diffusion这样的图像生成模型按图像收费(通常根据分辨率,每张图像价格为0.02至0.08美元)。视频模型按生成视频的秒数收费—Runway的Gen-3每秒约0.05美元,对于较长的视频片段来说,费用增长非常快。语音模型按字符或音频分钟收费。嵌入模型按token收费,但费率远低于生成模型(通常为每百万个token 0.01至0.10美元)。一些供应商提供订阅模式:ChatGPT Plus每月20美元,Claude Pro每月20美元,为用户提供在速率限制内对最新模型的无限访问权限。对于企业客户,承诺使用折扣(以每年花费10万美元以上换取20至40%的目录价格折扣)已成为标准。此外,多家供应商提供慷慨的免费层级:Google的Gemini API、Mistral的La Plateforme和Groq都允许开发者在达到一定使用阈值前免费试用。

优化成本

降低AI成本的最大杠杆不是与供应商讨价还价—而是为任务选择合适的模型。像Claude Opus或GPT-4o这样的前沿模型对于分类、提取或简单摘要任务来说过于强大;而像Claude Haiku、Gemini Flash或Mistral Small这样的小型模型可以以10至50倍更低的成本完成这些任务,同时保持相当的准确性。提示工程也很重要:一个长达2000个token的系统提示会在每次API调用中消耗这些token,因此精简提示可以在规模上节省成本。缓存是另一个强大的工具—Anthropic的提示缓存和OpenAI的自动缓存都允许你为重复的上下文支付更低的费用,这对每次请求都发送相同系统提示或文档上下文的应用程序尤其有价值。最后,批量处理非紧急请求(使用OpenAI的批量API或类似服务)通常可获得50%的折扣,但需要接受更高的延迟。

隐藏成本

token价格是可见成本,但它并非全貌。上下文窗口的使用至关重要:在每次调用中将128K个token的上下文窗口填满文档在技术上是可行的,但财务上却非常痛苦。像OpenAI的o1和o3这样的推理模型会生成内部“思考”token,即使你从未看到这些token,也需要付费—一个复杂的查询可能在可见响应之上消耗10000个以上的思考token。速率限制也带来了隐藏成本:如果你的供应商将你限制为每分钟1000个请求,而你的应用程序需要5000个,你只能排队请求(增加延迟)或配置多个API密钥(增加复杂性)。此外,不要忘记出站成本、日志成本以及用于构建重试逻辑、token计数和成本监控的工程时间。每token的标价只是真实成本方程的开始。

相关概念

← 所有术语
← AI 基础设施 AI 隐私 →
ESC