AI API में दर सीमा (Rate limiting) कई आयामों पर एक साथ कार्य करता है, और प्रत्येक के बारे में समझना बहुत सारी परेशानी से बचाता है। अधिकांश प्रदाता कम से कम दो सीमाएं लागू करते हैं: मिनट प्रति अनुरोध (RPM) और मिनट प्रति टोकन (TPM)। RPM आपके द्वारा किए जाने वाले एपीआई कॉल की संख्या की सीमा लगाता है, चाहे वे कितने बड़े हों। एंथ्रोपिक के मुफ्त टियर में 5 RPM अनुमति दे सकता है, जबकि भुगतान वाले टियर 1,000+ RPM प्रदान करते हैं। TPM प्रति मिनट प्रवेश + निकास के कुल टोकन आयाम की सीमा लगाता है। आप इनमें से किसी भी सीमा को अलग-अलग तौर पर छू सकते हैं। एक आम आश्चर्य: आप अपनी RPM सीमा के बहुत नीचे हो सकते हैं, लेकिन TPM के कारण लंबे प्रॉम्प्ट भेज रहे हों जिनमें बड़े संदर्भ खिड़कियां हों। कुछ प्रदाता अपने दैनिक अनुरोध (RPD) और दैनिक टोकन (TPD) की सीमाएं भी लागू करते हैं, जो मध्य रात के UTC पर रीसेट हो जाती हैं।
प्रदाता इन सीमाओं को कार्यान्वित करने के तरीकों में कुछ मानक पैटर्न होते हैं। सबसे आम तरीका टोकन बूच एल्गोरिथ्म (या इसके निकटतम रिश्तेदार, स्लाइडिंग विंडो) है। कल्पना करें कि एक बूच है जो 60 टोकन के आयाम की क्षमता रखता है। यह प्रति सेकंड एक दर से भरता है। प्रत्येक अनुरोध अपने टोकन संख्या के अनुपात में बूच से निकलता है। यदि बूच खाली है, तो आपका अनुरोध HTTP 429 (बहुत अधिक अनुरोध) के साथ अस्वीकृत कर दिया जाता है। जवाब के हेडर आपको जानने के लिए बताते हैं: x-ratelimit-limit-requests, x-ratelimit-remaining-requests, x-ratelimit-reset-requests, और उनके टोकन समकक्ष। स्मार्ट क्लाइंट कोड इन हेडर को प्रायोजित रूप से पढ़ता है, बजाय 429 के लिए इंतजार करने के। एंथ्रोपिक, ओपनएआई और अधिकांश अन्य प्रदाता प्रत्येक जवाब पर इन हेडर को शामिल करते हैं।
जब आप दर सीमा के तहत आ जाते हैं, तो मानक दृष्टिकोण ज्यामितीय पीछा बैकऑफ (exponential backoff with jitter) होता है। पहले 429 के बाद 1 सेकंड के बाद इंतजार करें, फिर 2 सेकंड, फिर 4, फिर 8 — और एक यादृच्छिक घटक (जिटर) जोड़ें ताकि अगर आपके 50 समानांतर कार्यकर्ता सभी एक ही समय पर 429 देखते हैं, तो वे सभी एक ही समय पर पुनः प्रयास न करें और तुरंत फिर से 429 देखें। अधिकांश प्रदाता SDK (एंथ्रोपिक के पायथन SDK, ओपनएआई के SDK) मूल रीट्राई लॉजिक को स्वचालित रूप से हैंडल करते हैं, लेकिन उत्पादन प्रणालियों को आमतौर पर अधिक जटिल दृष्टिकोण की आवश्यकता होती है: प्राथमिकता स्तर के साथ अनुरोध कतारें, अनुमानित दर सीमा जो शेष क्वोट के आधार पर प्रायोजित रूप से ब्रेक करता है, और सर्किट ब्रेकर जो एक प्रदाता के अत्यधिक भारित होने पर त्वरित रूप से विफल हो जाता है बजाय अधिक रीट्राई करने के।
दर सीमाओं के रणनीतिक प्रभाव यह निर्धारित करते हैं कि गंभीर अनुप्रयोग कैसे डिज़ाइन किए जाएं। यदि आपको क्लॉउड में 100,000 दस्तावेज़ प्रोसेस करने की आवश्यकता है, तो आप 100,000 समानांतर एपीआई कॉल नहीं भेज सकते। आप कॉन्करेंसी को प्रबंधित करना चाहिए, संभवतः 20-50 समानांतर अनुरोध चलाते हुए और एक कतार से उनके लिए खाना देते हुए। एंथ्रोपिक एक बैच एपीआई प्रदान करता है जिसमें अलग, उच्च-थ्रॉटल दर सीमा होती है जो 50% लागत छूट के साथ डिज़ाइन की गई है — इस उपयोग मामले के लिए विशेष रूप से। ओपन