推理模型把 GPU 釘死 30 秒——這才是帳單,不是 token

推理模型的成本,不在 token 上,在它把 GPU 釘死的那點時間上。標準模型大約一秒鐘出結果;推理模型可以把同一張 GPU 佔住三十秒,慢慢走它那一套交錯思考、工具呼叫、自我修正。這 30 比 1 才是真帳單——你的並發容量直接掉 30 倍,P95 延遲不再可預測;你帳單上那個「每百萬 token」的數字,是症狀,不是病。

「推理時計算擴展」(inference scaling)意味著成本和輸入長度不再是線性關係。TDS 這篇文章擺出來的,正是這種成本會從哪冒出來:用思維鏈拆解去做簡單事情時,在「把 1 加到 9900」這種 toy 題上燒掉幾千個 token;GPU 顯存佔用從亞秒延展到 30 秒以上;P95 延遲方差大到 timeout 頻發,「讓應用感覺像壞了」。文章給了一個具體案例:把簡單任務從推理模型上挪走,每天省了 2030 美元——從 3000 降到 970,砍掉 68%,而任務品質沒受影響。這事的含義是:你的推理模型,不是「什麼都用它便宜」的那一檔,而是「有時候值得用」的那一檔貴貨。

這也是為什麼每一家前沿模型供應商現在都在把「路由」當產品在賣。Claude Sonnet 4.5 + Haiku 4.5,OpenAI o3 + gpt-4.1,Gemini 2.5 Pro + Flash——路由這一檔之所以存在,是因為推理 vs 非推理兩條路的成本曲線真的不一樣,試圖把這件事對開發者藏起來,只會換來一份難看的帳單。文章裡最值得抄的視角是:別再用「每百萬 token 多少錢」當指標,改用「每完成一個任務花了多少錢」。一個推理模型用 40K token 才解決問題、又吃了兩次重試,實際上比一個用 2K token 一發命中的小模型貴。帳單上看不出這點;你的任務完成率會告訴你。

這週可以動手的三件事。第一:把你的流量分成 Use / Maybe / Avoid 三檔面對推理模型——數學、規劃、多步偵錯是 Use;抽取、格式化、簡單查找是 Avoid。第二:對推理 token 數、重試次數和總請求時間設硬上限,免得一個「思維陷阱」迴圈一個晚上把預算啃光。第三:把每條請求的 `tokens × 實際秒數 × 是否成功` 都記下來,看「每完成一個任務的成本」分布,而不是看 token 的平均價。推理模型是把好刀——只是你伸手去拿它的時候,有大約七成場合,它不是對的那把。

推理模型把 GPU 釘死 30 秒——這才是帳單,不是 token

更多新聞