इन्फ़ेरेंस: परिभाषा और अर्थ — AI विकी

एक प्रशिक्षित मॉडल को चलाने की प्रक्रिया जो आउटपुट उत्पन्न करती है। प्रशिक्षण सीखना है; अनुमान उसका उपयोग करना है जो सीखा गया था। हर बार जब आप क्लॉड को एक प्रॉम्प्ट भेजते हैं या स्टेबल डिफ्यूजन के साथ एक इमेज उत्पन्न करते हैं, तो वह अनुमान है। यही वह चीज है जो प्रदाताओं के लिए GPU घंटे की लागत है और जिसके लिए आप प्रति टोकन भुगतान करते हैं।

यह क्यों मायने रखता है

इनफरेंस की लागत और गति AI उत्पादों की आर्थिक व्यवस्था निर्धारित करती है। तेज़ इनफरेंस = कम लैटेंसी = बेहतर UX। सस्ता इनफरेंस = कम कीमतें = व्यापक अपनाना। क्वांटाइजेशन और ऑप्टिमाइजेशन के पूरा उद्योग इनफरेंस को अधिक कुशल बनाने के लिए मौजूद है।

गहन अध्ययन

बड़े भाषा मॉडल के लिए, अनुमान लगाना दो अलग-अलग चरणों में होता है, और इनके समझने से आप देखेंगे कि अधिकांश प्रदर्शन विशेषताएं किस तरह से सम्बंधित हैं। पहला चरण "प्रीफिल" या "प्रॉम्प्ट प्रोसेसिंग" कहलाता है — मॉडल आपके पूरे इनपुट प्रॉम्प्ट को पढ़ता है और अपनी आंतरिक स्थिति (KV कैश) को बनाता है। यह चरण कम्प्यूटेशन बाउंड होता है और GPU पैरेलेलिज से लाभ उठाता है क्योंकि सभी इनपुट टोकन एक साथ प्रोसेस किए जा सकते हैं। दूसरा चरण "डिकोड" या "जनन" कहलाता है — मॉडल एक के बाद एक आउटपुट टोकन उत्पन्न करता है, प्रत्येक टोकन सभी पिछले टोकनों पर निर्भर करता है। यह चरण मेमोरी-बैंडविड्थ बाउंड होता है क्योंकि मॉडल प्रत्येक टोकन के लिए VRAM से अपने वेट्स को पढ़ना चाहता है लेकिन प्रत्येक पढ़ाव में अपेक्षाकृत कम कम्प्यूटेशन करता है। इसी कारण से पहला टोकन के लिए समय (TTFT) और टोकन-प्रति-सेकंड को अलग-अलग मापा जाता है: वे मूल रूप से अलग-अलग बॉटलनेक को दर्शाते हैं।

थ्रूपुट विरुद्ध लैटेंसी

अनुमान के आर्थिक पहलू एक अवधारणा द्वारा नियंत्रित होते हैं जिसे "थ्रूपुट विरुद्ध लैटेंसी" कहा जाता है। यदि आप एक चैटबॉट को सर्विंग कर रहे हैं जहां एक उपयोगकर्ता एक प्रतिक्रिया की प्रतीक्षा कर रहा है, तो आपको कम लैटेंसी चाहिए — पहला टोकन जल्दी निकालें। लेकिन यदि आप बैच प्रोसेसिंग (रात में 10,000 दस्तावेजों के सारांश) चला रहे हैं, तो आपको उच्च थ्रूपुट चाहिए — संभवतः प्रति सेकंड अधिक टोकन प्रोसेस करें, भले ही प्रत्येक व्यक्तिगत अनुरोध धीमा हो। अनुमान इंजन जैसे vLLM और TensorRT-LLM एक तकनीक का उपयोग करते हैं जिसे "कंटिन्यूअस बैचिंग" कहा जाता है, जो बहुत सारे अनुरोधों के समूह को गतिशील रूप से जोड़ता है, जो थ्रूपुट को बहुत बेहतर बनाता है। एक अकेला H100 एक अनुरोध के लिए 40 टोकन/सेकंड उत्पन्न कर सकता है, लेकिन बैचिंग के बुद्धिमान तरीके से, वही GPU अधिकतर लैटेंसी के साथ 20+ समानांतर उपयोगकर्ताओं को सेवा कर सकता है क्योंकि मेमोरी बैंडविड्थ का अधिक कुशलता से वितरण होता है।

सर्विंग लैंडस्केप

अनुमान सर्विंग लैंडस्केप अलग-अलग दृष्टिकोणों में विभाजित हो गया है। क्लाउड API प्रदाता (Anthropic, OpenAI, Google) बड़े GPU क्लस्टर चलाते हैं और टोकन पर आधारित दर से अनुमान के रूप में सेवा बेचते हैं। अनुमान फोकस वाले प्रदाता जैसे Groq अपने हार्डवेयर पर बेतरतीब बेट करते हैं — Groq के LPU (भाषा प्रोसेसिंग यूनिट) को अनुक्रमित डिकोड चरण के लिए विशेष रूप से डिज़ाइन किया गया है और यह अत्यधिक तेज टोकन उत्पन्न करता है। ओपन सोर्स वाले पक्ष में, llama.cpp एग्रेसिव क्वांटाइजेशन के माध्यम से एलईएम अनुमान को CPU और कंज्यूमर GPU तक ले गया है, और Ollama जैसे उपकरणों ने इसे उपयोगकर्ता-अनुकूल पैकेज में लपेट दिया है। उत्पादन स्व-होस्टिंग के लिए, vLLM के साथ PagedAttention डिफ़ॉल्ट विकल्प बन गया है, जो सही तरीके से ट्यून करने पर वाणिज्यिक प्रस्तावों के साथ थ्रूपुट के बराबर प्रदान करता है।

लागत की वास्तविकता

एक सामान्य गलत धारणा यह है कि अनुमान "सस्ता" है ट्रेनिंग के तुलना में। एक अकेले अनुरोध के लिए, हां — एक प्रतिक्रिया उत्पन्न करने की लागत एक सेंट के एक भाग से कम होती है। लेकिन अनुमान लगातार होता है। एक लोकप्रिय चैटबॉट प्रतिदिन मिलियनों अनुरोधों का सामना करता है, अपरिमित रूप से। खबरों के अनुसार, Open

इन्फ़ेरेंस

यह क्यों मायने रखता है

गहन अध्ययन

थ्रूपुट विरुद्ध लैटेंसी

सर्विंग लैंडस्केप

लागत की वास्तविकता

संबंधित अवधारणाएँ