यह अंतर प्रोडक्शन में सबसे अधिक मायने रखता है। Latency (विशेष रूप से TTFT — पहले टोकन तक का समय) एकल अनुरोध के लिए उपयोगकर्ता अनुभव निर्धारित करता है। Throughput निर्धारित करता है कि दिए गए GPUs की संख्या के साथ आप कितने उपयोगकर्ताओं की सेवा कर सकते हैं। जो तकनीकें एक में सुधार करती हैं वे अक्सर दूसरे को नुकसान पहुँचाती हैं: कई अनुरोधों को एक साथ batch करने से throughput बेहतर होता है (GPU व्यस्त रहता है) लेकिन latency बढ़ती है (प्रत्येक अनुरोध batch के लिए प्रतीक्षा करता है)।
LLM serving में सफलता continuous batching (जिसे in-flight batching भी कहा जाता है) थी। एक batch में सभी अनुरोधों के समाप्त होने की प्रतीक्षा करने और फिर नए शुरू करने के बजाय, continuous batching स्लॉट खुलने पर batch में नए अनुरोध जोड़ती है। यह GPU उपयोग को उच्च रखता है और छोटे अनुरोधों को लंबे अनुरोधों द्वारा रोके जाने से बचाता है। vLLM, TGI, और TensorRT-LLM सभी इसे लागू करते हैं।
पैमाने पर, throughput सीधे प्रति टोकन लागत निर्धारित करता है। $10/घंटे पर 10,000 टोकन/सेकंड उत्पन्न करने वाले सर्वर की लागत $0.001 प्रति 1,000 टोकन है। वही सर्वर 1,000 टोकन/सेकंड पर $0.01 की लागत देता है। यह 10x अंतर इसलिए है कि inference ऑप्टिमाइज़ेशन (quantization, speculative decoding, बेहतर batching) इतना मायने रखता है — यह केवल तेज़ नहीं, सस्ता भी है। जो प्रदाता throughput ऑप्टिमाइज़ करते हैं वे कम कीमतें या उच्च मार्जिन प्रदान कर सकते हैं।