Zubnet AIसीखेंWiki › Throughput
बुनियादी ढांचा

Throughput

इसे भी कहा जाता है: Tokens Per Second, TPS
सभी समवर्ती अनुरोधों में एक सिस्टम प्रति सेकंड कुल कितने टोकन उत्पन्न कर सकता है। Latency (एक एकल अनुरोध कितनी तेज़ी से पूरा होता है) से भिन्न। उच्च throughput वाला सिस्टम एक साथ कई उपयोगकर्ताओं की सेवा करता है। कम latency वाला सिस्टम प्रत्येक व्यक्तिगत उपयोगकर्ता को जल्दी सेवा प्रदान करता है। दोनों अक्सर एक-दूसरे से ट्रेड-ऑफ़ करते हैं।

यह क्यों मायने रखता है

AI उत्पाद बनाते समय, throughput आपकी serving लागत और क्षमता निर्धारित करता है। एक सिस्टम जो प्रति उपयोगकर्ता 100 टोकन/सेकंड उत्पन्न करता है लेकिन एक समय में केवल एक उपयोगकर्ता की सेवा कर सकता है, उसका throughput कम है भले ही व्यक्तिगत latency बढ़िया हो। Throughput वह है जिसे आप ऑप्टिमाइज़ करते हैं जब आप हज़ारों समवर्ती उपयोगकर्ताओं के लिए GPU बिल चुका रहे होते हैं।

गहन अध्ययन

यह अंतर प्रोडक्शन में सबसे अधिक मायने रखता है। Latency (विशेष रूप से TTFT — पहले टोकन तक का समय) एकल अनुरोध के लिए उपयोगकर्ता अनुभव निर्धारित करता है। Throughput निर्धारित करता है कि दिए गए GPUs की संख्या के साथ आप कितने उपयोगकर्ताओं की सेवा कर सकते हैं। जो तकनीकें एक में सुधार करती हैं वे अक्सर दूसरे को नुकसान पहुँचाती हैं: कई अनुरोधों को एक साथ batch करने से throughput बेहतर होता है (GPU व्यस्त रहता है) लेकिन latency बढ़ती है (प्रत्येक अनुरोध batch के लिए प्रतीक्षा करता है)।

Continuous Batching

LLM serving में सफलता continuous batching (जिसे in-flight batching भी कहा जाता है) थी। एक batch में सभी अनुरोधों के समाप्त होने की प्रतीक्षा करने और फिर नए शुरू करने के बजाय, continuous batching स्लॉट खुलने पर batch में नए अनुरोध जोड़ती है। यह GPU उपयोग को उच्च रखता है और छोटे अनुरोधों को लंबे अनुरोधों द्वारा रोके जाने से बचाता है। vLLM, TGI, और TensorRT-LLM सभी इसे लागू करते हैं।

अर्थशास्त्र

पैमाने पर, throughput सीधे प्रति टोकन लागत निर्धारित करता है। $10/घंटे पर 10,000 टोकन/सेकंड उत्पन्न करने वाले सर्वर की लागत $0.001 प्रति 1,000 टोकन है। वही सर्वर 1,000 टोकन/सेकंड पर $0.01 की लागत देता है। यह 10x अंतर इसलिए है कि inference ऑप्टिमाइज़ेशन (quantization, speculative decoding, बेहतर batching) इतना मायने रखता है — यह केवल तेज़ नहीं, सस्ता भी है। जो प्रदाता throughput ऑप्टिमाइज़ करते हैं वे कम कीमतें या उच्च मार्जिन प्रदान कर सकते हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← Text Summarization Together AI →