推理模型把 GPU 钉死 30 秒——这才是账单,不是 token

推理模型的成本,不在 token 上,在它把 GPU 钉死的那点时间上。标准模型大约一秒钟出结果;推理模型可以把同一张 GPU 占住三十秒,慢慢走它那一套交错思考、工具调用、自我修正。这 30 比 1 才是真账单——你的并发容量直接掉 30 倍,P95 延迟不再可预测;你账单上那个「每百万 token」的数字,是症状,不是病。

「推理时计算扩展」(inference scaling)意味着成本和输入长度不再是线性关系。TDS 这篇文章摆出来的,正是这种成本会从哪冒出来:用思维链拆解去做简单事情时,在「把 1 加到 9900」这种 toy 题上烧掉几千个 token;GPU 显存占用从亚秒延展到 30 秒以上;P95 延迟方差大到 timeout 频发,「让应用感觉像坏了」。文章给了一个具体案例:把简单任务从推理模型上挪走,每天省了 2030 美元——从 3000 降到 970,砍掉 68%,而任务质量没受影响。这事的含义是:你的推理模型,不是「什么都用它便宜」的那一档,而是「有时候值得用」的那一档贵货。

这也是为什么每一家前沿模型供应商现在都在把「路由」当产品在卖。Claude Sonnet 4.5 + Haiku 4.5,OpenAI o3 + gpt-4.1,Gemini 2.5 Pro + Flash——路由这一档之所以存在,是因为推理 vs 非推理两条路的成本曲线真的不一样,试图把这件事对开发者藏起来,只会换来一份难看的账单。文章里最值得抄的视角是:别再用「每百万 token 多少钱」当指标,改用「每完成一个任务花了多少钱」。一个推理模型用 40K token 才解决问题、又吃了两次重试,实际上比一个用 2K token 一发命中的小模型贵。账单上看不出这点;你的任务完成率会告诉你。

这周可以动手的三件事。第一:把你的流量分成 Use / Maybe / Avoid 三档面对推理模型——数学、规划、多步调试是 Use;抽取、格式化、简单查找是 Avoid。第二:对推理 token 数、重试次数和总请求时间设硬上限,免得一个「思维陷阱」循环一个晚上把预算啃光。第三:把每条请求的 `tokens × 实际秒数 × 是否成功` 都记下来,看「每完成一个任务的成本」分布,而不是看 token 的平均价。推理模型是把好刀——只是你伸手去拿它的时候,有大约七成场合,它不是对的那把。

推理模型把 GPU 钉死 30 秒——这才是账单,不是 token

更多新闻