लेटेंसी: परिभाषा और अर्थ — AI विकी

एक अनुरोध भेजने और पहला प्रतिक्रिया प्राप्त करने के बीच की देरी। AI में, इसे अक्सर पहले टोकन तक के समय (TTFT) के रूप में मापा जाता है — मॉडल अपना उत्तर स्ट्रीमिंग करना शुरू करने से पहले कितना समय लगता है। मॉडल के आकार, सर्वर के भार, नेटवर्क की दूरी और प्रॉम्प्ट की लंबाई द्वारा प्रभावित होता है।

यह क्यों मायने रखता है

उपयोगकर्ता 2 सेकंड से अधिक कुछ भी धीमा मानते हैं। कम लैटेंसी वाले मॉडल रियल-टाइम एप्लिकेशन में अक्सर जीत जाते हैं, भले ही बड़े मॉडल "स्मार्ट" हों। यह प्रदाताओं के बीच मुख्य अंतर है।

गहन अध्ययन

एआई प्रणालियों में लैटेंसी कई अलग-अलग घटकों में विभाजित होती है, और प्रत्येक को समझना आपको यह पता लगाने में मदद करता है कि वास्तव में क्या धीमा है। पहले नेटवर्क लैटेंसी होती है — आपके अनुरोध के प्रदाता के सर्वर तक पहुंचने और प्रतिक्रिया के पहले बाइट्स वापस आने के लिए राउंड-ट्रिप समय। यह आमतौर पर 20-100 मिलीसेकंड होता है, जो आपके डेटासेंटर से भौगोलिक दूरी पर निर्भर करता है। फिर क्यू टाइम होता है — आपके अनुरोध के लिए एक GPU उपलब्ध होने तक कितना समय बीतता है। शीर्ष घंटों में या लोकप्रिय मॉडल के लिए, यह शून्य से कई सेकंड तक फैल सकता है। अगला प्रीफिल टाइम होता है — मॉडल आपके पूरे इनपुट प्रॉम्प्ट को प्रोसेस करता है। एक 1,000 टोकन के प्रॉम्प्ट के लिए एक बड़े मॉडल पर, यह 200-500 मिलीसेकंड ले सकता है। अंत में, डिकोड शुरू होता है और आप पहला टोकन प्राप्त करते हैं। सभी इन चरणों का कुल योग आपका TTFT (Time to First Token) होता है।

टोकन्स प्रति सेकंड

पहले टोकन प्राप्त होने के बाद, एक दूसरा लैटेंसी मापदंड जो इतना महत्वपूर्ण होता है: इंटर-टोकन लैटेंसी, या अगले टोकन कितनी तेजी से स्ट्रीम होते हैं। यह आमतौर पर टोकन्स प्रति सेकंड में मापा जाता है। GPT-4o के लिए 80-100 टोकन/सेकंड के स्ट्रीम हो सकते हैं, जबकि क्लॉउड अधिकांश अनुरोधों के लिए समान गति पर स्ट्रीम करता है। एक चैटबॉट के लिए, 30 टोकन/सेकंड से अधिक की गति मनुष्य पाठक के लिए "तुरंत" लगती है — आप इतनी तेजी से पढ़ नहीं सकते। 15 टोकन/सेकंड से कम पर, स्ट्रीमिंग चौपट लगने लगती है। इसी कारण कुछ प्रदाता दोनों TTFT और टोकन/सेकंड के मापदंडों के साथ बात करते हैं — वे अलग-अलग उपयोगकर्ता अनुभव बॉटलनेक माप रहे हैं। एक प्रतिक्रिया तेजी से शुरू हो सकती है लेकिन धीमी तरह से स्ट्रीम हो सकती है, या कुछ क्षण लेते हुए शुरू हो सकती है लेकिन फिर तेजी से आगे बढ़ सकती है।

प्रॉम्प्ट लंबाई फंसाव

प्रॉम्प्ट लंबाई के लैटेंसी पर प्रभाव अधिकांश विकासकर्ताओं के अपेक्षा से अधिक होता है। मानक ट्रांसफॉर्मर मॉडल के लिए प्रीफिल चरण इनपुट लंबाई के साथ लगभग वर्ग रूप से पैमाना करता है (स्व-ध्यान के कारण), इसलिए 10,000 टोकन के प्रॉम्प्ट के लिए 1,000 टोकन के प्रॉम्प्ट के लिए 10 गुना समय नहीं लगता — बल्कि बहुत अधिक समय लग सकता है। इसी कारण एंथ्रोपिक जैसे प्रदाता इनपुट और आउटपुट टोकन के लिए अलग-अलग शुल्क लगाते हैं और अपने पूरे कोडबेस को कंटेक्स्ट विंडो में भरने से वास्तविक प्रदर्शन पर प्रभाव पड़ता है। प्रॉम्प्ट कैशिंग जैसी तकनीक यहां अत्यधिक मदद करती है: एंथ्रोपिक की प्रॉम्प्ट कैशिंग सुविधा आपके प्रॉम्प्ट के एक हिस्से को कैशिंग योग्य चिह्नित करने की अनुमति देती है, इसलिए यदि आप प्रत्येक अनुरोध के साथ समान सिस्टम प्रॉम्प्ट भेज रहे हैं (जो अधिकांश एप्लिकेशन करते हैं), तो उस हिस्से के लिए प्रीफिल आमतौर पर पहले कॉल के बाद मुफ्त हो जाता है।

क्या ध्यान रखना चाहिए

लैटेंसी के साथ वि

लेटेंसी

यह क्यों मायने रखता है

गहन अध्ययन

टोकन्स प्रति सेकंड

प्रॉम्प्ट लंबाई फंसाव

क्या ध्यान रखना चाहिए

संबंधित अवधारणाएँ