कंटेक्स्ट विंडो स्टोरेज नहीं है — यह कार्य किंतु यादृच्छिक स्मृति है। विंडो में प्रत्येक टोकन (आपका सिस्टम प्रॉम्प्ट, बातचीत का इतिहास, जो भी दस्तावेज आप पेस्ट करते हैं, और मॉडल का अपना अब तक का आउटपुट) एक ही निश्चित आकार के बजट के लिए प्रतिस्पर्धा करते हैं। जब लोग कहते हैं कि क्लॉउड में 200K कंटेक्स्ट विंडो है या जेमिनी 1M टोकन का समर्थन करता है, तो उन संख्याओं में सब कुछ शामिल होता है: इनपुट और आउटपुट दोनों। एक आम गलती यह है कि कंटेक्स्ट विंडो को एक डेटाबेस के रूप में उपयोग करें जिसमें आप दस्तावेजों को भर सकते हैं और मॉडल की उम्मीद कर सकते हैं कि वह इसे पूरी तरह से खोजे। वास्तव में, मॉडल कंटेक्स्ट को ध्यान यंत्रों के माध्यम से प्रक्रमित करते हैं, और ध्यान के पास गणनात्मक और गुणात्मक सीमाएं होती हैं।
"मध्य में खो जाने" की समस्या वास्तव में और अच्छी तरह से दस्तावेजित है। स्टैनफोर्ड और अन्य संस्थाओं के शोध दिखाते हैं कि जब आप बहुत लंबे कंटेक्स्ट के मध्य में महत्वपूर्ण जानकारी रखते हैं, तो मॉडल इसका उपयोग करने में शुरुआत या अंत में रखे गए जानकारी के मुकाबले मापनीय रूप से खराब होते हैं। यह एक सिद्धांतगत चिंता नहीं है — यह आपके प्रॉम्प्ट की संरचना के तरीके पर सीधे प्रभाव डालता है। यदि आप मॉडल को 50 पृष्ठों के दस्तावेज के साथ फीड कर रहे हैं, तो सबसे महत्वपूर्ण अनुभागों को पहले और अंत में रखें, न कि 25वें पृष्ठ पर छिपाएं। कुछ टीमें इसके चारों ओर काम करती हैं दस्तावेजों को चूना लगाकर और RAG का उपयोग करके केवल संबंधित टुकड़ों को वापस लेने के बजाय सभी को कंटेक्स्ट में डंप करने के बजाय।
कंटेक्स्ट विंडो के आकार में भारी वृद्धि हुई है। 2020 में GPT-3 के साथ 4K टोकन (लगभग 3,000 शब्द) शुरू हुआ। 2024 तक, क्लॉउड 200K टोकन प्रदान करता है, और जेमिनी 1.5 प्रो 1M टोकन तक पहुंच गया। गूगल के जेमिनी 2.5 मॉडल उस मिलियन टोकन विंडो को बरकरार रखते हैं। लेकिन बड़े विंडो वास्तव में व्यापक बदलाव लेकर आते हैं। लेटेंसी बढ़ जाती है क्योंकि मॉडल को अधिक टोकन के ध्यान के लिए ध्यान देना होता है। लागत बढ़ जाती है क्योंकि अधिकांश API प्रदाताओं के द्वारा प्रति टोकन प्रोसेस करने के लिए शुल्क लिया जाता है। और जैसा कि उल्लेख किया गया है, रिट्रीवल कार्यों पर गुणवत्ता कंटेक्स्ट आकार के साथ रैखिक रूप से बढ़ती नहीं है — 1M टोकन विंडो 200K टोकन विंडो की तुलना में एक तीर के खोजने में 5 गुना बेहतर नहीं होता।
API के साथ काम करने वाले विकासकर्ताओं के लिए, कंटेक्स्ट प्रबंधन एक मुख्य इंजीनियरिंग समस्या है। लंबी बातचीत तेजी से टोकन एकत्र करती है। एक बैक-एंड-फॉर-चैट एक्सचेंज 500–1,000 टोकन प्रति एक्सचेंज खर्च कर सकता है, जिसका मतलब है कि 4K टोकन मॉडल केवल कुछ चक्रों में ही जगह खत्म हो जाएगा। उत्पादन प्रणालियां इसे स्लाइडिंग विंडो (सबसे पुराने संदेशों को छोड़ देना), सारांशीकरण (पहले बातचीत को छोटे सारांश में संपीड़ित करना) या RAG के साथ संयुक्त दृष्टिकोण का उपयोग करके संदर्भ सामग्री को वेक्टर डेटाबेस में अपलोड करना और केवल आवश्यक टुकड़ों को आवश्यकता पड़ने पर खींचना से निपटती हैं। इसे सही तरीके से प्राप्त करना अक्सर एक डेमो के काम करने और एक उत्पाद