Zubnet AIसीखेंWiki › Prompt Caching
AI उपयोग

Prompt Caching

इसे भी कहा जाता है: Context Caching, Prefix Caching
एक तकनीक जो prompt prefix के processed version को कई API calls में save और reuse करती है, redundant computation से बचती है। यदि आप हर request के साथ समान system prompt और document context भेजते हैं (जो सामान्य है), तो prompt caching इसे एक बार process करती है और बाद के requests के लिए cached computation का पुन: उपयोग करती है। इससे latency और cost दोनों कम होती हैं।

यह क्यों मायने रखता है

अधिकांश AI applications हर request के साथ समान system prompt, few-shot examples, या reference documents भेजती हैं। Caching के बिना, provider हर बार इस identical prefix को process करता है। Prompt caching input token costs को 50–90% तक कम कर सकती है और time-to-first-token को काफी कम कर सकती है। High-volume applications के लिए, यह प्रति माह हज़ारों डॉलर की बचत में बदल जाती है।

गहन अध्ययन

तकनीकी mechanism: LLM inference की "prefill" चरण के दौरान, model सभी input tokens को process करता है और उनकी KV cache entries की गणना करता है। Prompt caching इस KV cache को स्टोर करती है ताकि समान prefix वाले बाद के requests cached portion के लिए prefill को skip कर सकें। केवल नए tokens (उपयोगकर्ता का वास्तविक संदेश) को processing की आवश्यकता होती है। Anthropic, OpenAI, और Google सभी prompt caching का कोई न कोई रूप प्रदान करते हैं।

इसका उपयोग कैसे करें

अधिकांश implementations matching prefixes का स्वचालित रूप से पता लगाकर या आपको cache breakpoints चिह्नित करने देकर काम करते हैं। मुख्य constraint: केवल exact prefix matches ही गिने जाते हैं। यदि आपका system prompt एक token से भी बदलता है, तो cache miss होता है। इसका मतलब है कि अपने prompts को stable parts पहले (system prompt, documents) और variable parts बाद में (user message) के साथ संरचित करना cache hit rates के लिए महत्वपूर्ण है।

यह कब सबसे ज़्यादा मायने रखता है

Prompt caching सबसे बड़ी बचत तब देती है जब: (1) आपके पास एक लंबा, स्थिर prefix हो (बड़े system prompts, RAG context), (2) आप उसी prefix के साथ कई requests भेजते हैं (chatbots, agents), और (3) input tokens आपकी costs का महत्वपूर्ण हिस्सा हैं। छोटे, unique prompts वाले applications के लिए, caching कम लाभ देती है। Context window को documents से भरने वाले applications के लिए, यह transformative है।

संबंधित अवधारणाएँ

← सभी शब्द
← Precision & Recall Prompt Injection →