रीज़निंग मॉडल GPU को 30 सेकंड पकड़े रखते हैं — यही असली बिल है, टोकन नहीं

रीज़निंग मॉडल की लागत tokens में नहीं मापी जाती। यह उन सेकंडों में मापी जाती है जिनमें आपका GPU एक ही request पर अटका रहता है। एक standard मॉडल लगभग एक सेकंड में predict करता है; एक reasoning मॉडल वही GPU तीस सेकंड तक पकड़े रह सकता है — वह interleaved thinking, tool calls और self-correction से होकर गुज़रता है। यह अनुपात ही असली बिल है — आपकी concurrent-user capacity 30× गिर जाती है, P95 latency non-deterministic हो जाती है, और आपके invoice पर tokens-per-million की संख्या लक्षण है, बीमारी नहीं।

Inference scaling का अर्थ है कि लागत input आकार के साथ रैखिक रहना बंद कर देती है। TDS का लेख दिखाता है यह कहाँ प्रकट होती है: chain-of-thought decomposition जो सरल कार्यों पर हज़ारों tokens जला देती है (वह क्लासिक "1 से 9900 जोड़ने में tokens जलाओ" लूप), GPU memory occupancy जो उप-सेकंड से 30s+ तक खिंच जाती है, और P95 latency variance जो timeouts के ज़रिए "applications को टूटा हुआ महसूस कराती है"। लेख से एक ठोस केस: सरल काम को reasoning मॉडल से हटाने पर रोज़ $2,030 की बचत हुई — $3,000 से $970, 68% की कटौती — task क्वालिटी प्रभावित किए बिना। सबक यह है कि आपका reasoning मॉडल हर चीज़ के लिए सस्ता वाला नहीं है; यह वह महँगा है जो कभी-कभी इसके लायक़ है।

इसीलिए हर frontier provider अब routing को एक product की तरह बेच रहा है। Claude Sonnet 4.5 + Haiku 4.5, OpenAI o3 + gpt-4.1, Gemini 2.5 Pro + Flash — routing tier इसलिए मौजूद है क्योंकि reasoning vs non-reasoning की cost-shape सच में अलग है, और इसे devs से छुपाने की कोशिश सिर्फ़ बदसूरत bills पैदा करती है। लेख का दिलचस्प reframing: "dollars per million tokens" मापना बंद करें और "cost per successful task" मापना शुरू करें। एक reasoning मॉडल जो किसी समस्या को 40K tokens में हल करता है पर दो retries खाता है, उस छोटे मॉडल से ज़्यादा महँगा है जो 2K में सटीक उत्तर देता है। आपका invoice यह नहीं दिखाता; आपका task-completion ratio दिखाता है।

इस हफ़्ते करने लायक़ तीन चीज़ें। पहला: अपने traffic को reasoning के लिए Use / Maybe / Avoid में वर्गीकृत करें — गणित, planning, multi-step debugging Use हैं; extraction, formatting, simple lookups Avoid हैं। दूसरा: reasoning tokens, retries और total request time पर hard caps लगाएँ ताकि एक thinking-trap loop आपका budget रातों-रात न खा जाए। तीसरा: हर request पर `tokens × wall-clock-seconds × success-bool` log करें और cost-per-successful-task distribution देखें, औसत प्रति-token लागत नहीं। Reasoning मॉडल एक असली tool है — बस यह उन सत्तर प्रतिशत मौक़ों पर सही tool नहीं है जब आप इसे उठाने को ललचाते हैं।

रीज़निंग मॉडल GPU को 30 सेकंड पकड़े रखते हैं — यही असली बिल है, टोकन नहीं

और समाचार