AI मूल्य निर्धारण: परिभाषा और अर्थ — AI विकी

एआई प्रदाताओं के अपने मॉडलों तक पहुंच के लिए कैसे शुल्क लगाते हैं। मुख्य मॉडल टोकन-प्रति कीमत है — आप उन टोकनों की संख्या के लिए भुगतान करते हैं जो आप भेजते हैं (इनपुट) और प्राप्त करते हैं (आउटपुट), आउटपुट टोकन आमतौर पर 3-5 गुना अधिक महंगे होते हैं। अन्य मॉडल में प्रति-अनुरोध कीमत, मासिक सदस्यता, समर्पित-उपयोग छूट और मुफ्त टाइर्स शामिल हैं। कीमत कम करने की दौड़ तीखी रही है, जिसमें दो साल में लागत 10-100 गुना गिर गई है।

यह क्यों मायने रखता है

मूल्य निर्धारित करता है कि आप क्या बना सकते हैं। एक ऐसा एप्लिकेशन जो प्रति दिन 10,000 API कॉल करता है, वह प्रति टोकन लागत के आधार पर जीवित या मर जाता है। कीमत मॉडल को समझना, प्रदाताओं की तुलना करना और टोकन उपयोग को अनुकूलित करना, AI-संचालित उत्पाद बनाने वाले किसी भी व्यक्ति के लिए एक मूल कौशल है।

गहन अध्ययन

बड़े भाषा मॉडलों के लिए मानक pricing इकाई token है — अंग्रेज़ी में लगभग एक शब्द का तीन-चौथाई। जब आप OpenAI या Anthropic जैसे API को संदेश भेजते हैं, तो आपसे input tokens (आप क्या भेजते हैं) और output tokens (मॉडल क्या उत्पन्न करता है) के लिए अलग से शुल्क लिया जाता है। Output tokens अधिक महंगे होते हैं क्योंकि उन्हें sequential computation की आवश्यकता होती है — मॉडल को उन्हें एक समय में एक generate करना होता है, जो parallel में input tokens को प्रोसेस करने की तुलना में धीमा और अधिक GPU-सघन है। 2026 की शुरुआत में, फ्रंटियर मॉडलों के लिए क़ीमतें provider और मॉडल tier के आधार पर लगभग $2–15 प्रति मिलियन input tokens और $8–60 प्रति मिलियन output tokens तक होती हैं। यह तब तक सस्ता लग सकता है जब तक आपको एहसास नहीं होता कि 100,000 उपयोगकर्ताओं की सेवा करने वाला एक व्यस्त application आसानी से प्रति माह अरबों tokens का उपभोग कर सकता है।

क़ीमत collapse

AI pricing लगभग किसी की भविष्यवाणी से तेज़ी से गिरी है। OpenAI का GPT-3.5 2023 की शुरुआत में $2 प्रति मिलियन tokens पर launch हुआ; 2024 के मध्य तक, समकक्ष गुणवत्ता वाले मॉडल DeepSeek, Mistral, और Google (Gemini Flash के माध्यम से) जैसे providers से $0.10–0.25 प्रति मिलियन tokens में उपलब्ध थे। 18 महीनों में यह लगभग 10–50x की क़ीमत में कटौती तीन converging बलों से आई: हार्डवेयर सुधार (H100s inference के लिए A100s से ~3x अधिक कुशल हैं), software optimizations (continuous batching, speculative decoding, और quantization), और प्रतिस्पर्धात्मक दबाव (DeepSeek के ओपन-वेट मॉडलों ने वाणिज्यिक providers को margins में कटौती करने के लिए मजबूर किया)। पैटर्न जारी है — inference chips और serving frameworks की हर नई पीढ़ी लागत को कम करती है। developers के लिए, इसका अर्थ है कि वह मॉडल जो छह महीने पहले आपके use case के लिए बहुत महंगा था आज सस्ता हो सकता है।

Per-token से परे: अन्य pricing मॉडल

हर चीज़ साफ़ तरीके से per-token pricing में फ़िट नहीं होती। DALL-E और Stable Diffusion जैसे image generation मॉडल प्रति image शुल्क लेते हैं (आम तौर पर resolution के आधार पर $0.02–0.08 प्रति image)। वीडियो मॉडल उत्पन्न वीडियो के प्रति सेकंड शुल्क लेते हैं — Runway का Gen-3 लगभग $0.05 प्रति सेकंड चलता है, जो लंबे clips के लिए तेज़ी से जुड़ता है। Speech मॉडल प्रति character या audio के प्रति मिनट शुल्क लेते हैं। Embedding मॉडल प्रति token शुल्क लेते हैं लेकिन generative मॉडलों की तुलना में बहुत कम दरों पर (अक्सर $0.01–0.10 प्रति मिलियन tokens)। कुछ providers subscription मॉडल पेश करते हैं: ChatGPT Plus $20/महीना पर, Claude Pro $20/महीना पर, उपयोगकर्ताओं को नवीनतम मॉडलों तक असीमित (rate limits के भीतर) पहुँच देता है। एंटरप्राइज़ ग्राहकों के लिए, committed-use discounts — list pricing से 20–40% छूट के बदले प्रति वर्ष $100K+ खर्च करने पर सहमत होना — मानक हैं। और कई providers उदार free tiers प्रदान करते हैं: Google का Gemini API, Mistral का La Plateforme, और Groq सभी developers को कुछ usage thresholds तक मुफ़्त में experiment करने देते हैं।

अपनी लागतों को optimize करना

AI लागतों को कम करने के लिए सबसे बड़ा एकल lever आपके provider के साथ haggling नहीं है — यह कार्य के लिए सही मॉडल चुनना है। Claude Opus या GPT-4o जैसा एक फ्रंटियर मॉडल classification, extraction, या सरल summarization के लिए overkill है; Claude Haiku, Gemini Flash, या Mistral Small जैसा एक छोटा मॉडल तुलनीय सटीकता के साथ 10–50x कम लागत पर उन कार्यों को संभाल सकता है। Prompt engineering भी मायने रखती है: एक system prompt जो 2,000 tokens लंबा है आपको हर एक API call पर वे tokens खर्च करता है, इसलिए इसे काटने से पैमाने पर पैसे बचते हैं। Caching एक और शक्तिशाली tool है — Anthropic का prompt caching और OpenAI का automatic caching दोनों आपको दोहराए गए context के लिए कम दरों का भुगतान करने देते हैं, जो उन applications के लिए विशेष रूप से मूल्यवान है जो हर अनुरोध के साथ एक ही system prompt या दस्तावेज़ context भेजते हैं। अंत में, गैर-तत्काल अनुरोधों को batching (OpenAI के Batch API या समान पेशकशों का उपयोग करके) आम तौर पर उच्च latency स्वीकार करने के बदले आपको 50% छूट देता है।

छिपी हुई लागतें

Token pricing दिखाई देने वाली लागत है, लेकिन यह पूरी तस्वीर नहीं है। Context window उपयोग बहुत मायने रखता है: हर call पर 128K-token context window को दस्तावेज़ों से भर देना तकनीकी रूप से संभव है लेकिन वित्तीय रूप से दर्दनाक है। OpenAI के o1 और o3 जैसे reasoning मॉडल आंतरिक "thinking" tokens उत्पन्न करते हैं जिनके लिए आप भुगतान करते हैं भले ही आप उन्हें कभी न देखें — एक एकल जटिल query दृश्यमान प्रतिक्रिया के अलावा 10,000+ thinking tokens का उपभोग कर सकती है। Rate limits भी एक छिपी हुई लागत लगाते हैं: यदि आपका provider आपको प्रति मिनट 1,000 अनुरोधों पर cap करता है और आपके application को 5,000 की आवश्यकता है, तो आप या तो अनुरोधों को queue करते हैं (latency जोड़ते हुए) या कई API keys provision करते हैं (जटिलता जोड़ते हुए)। और egress लागत, logging लागत, और retry logic, token counting, और cost monitoring बनाने में खर्च किए गए इंजीनियरिंग समय को न भूलें। प्रति token sticker क़ीमत वास्तविक लागत समीकरण की केवल शुरुआत है।

AI मूल्य निर्धारण