Zubnet AIAprenderWiki › Prompt Caching
Using AI

Prompt Caching

Context Caching, Prefix Caching
Una técnica que guarda y reutiliza la versión procesada de un prefijo de prompt a través de múltiples llamadas API, evitando computación redundante. Si envías el mismo system prompt y contexto de documento con cada solicitud (lo cual es común), prompt caching lo procesa una vez y reutiliza la computación en caché para solicitudes subsecuentes. Esto reduce tanto la latencia como el costo.

Por qué importa

La mayoría de aplicaciones IA envían el mismo system prompt, ejemplos few-shot, o documentos de referencia con cada solicitud. Sin caching, el proveedor procesa este prefijo idéntico cada vez. Prompt caching puede cortar los costos de tokens de entrada en 50–90% y reducir significativamente el time-to-first-token. Para aplicaciones de alto volumen, esto se traduce en miles de dólares ahorrados al mes.

Deep Dive

The technical mechanism: during the "prefill" phase of LLM inference, the model processes all input tokens and computes their KV cache entries. Prompt caching stores this KV cache so that subsequent requests with the same prefix skip the prefill for the cached portion. Only new tokens (the user's actual message) need processing. Anthropic, OpenAI, and Google all offer some form of prompt caching.

How to Use It

Most implementations work by detecting matching prefixes automatically or by letting you mark cache breakpoints. The key constraint: only exact prefix matches count. If your system prompt changes by even one token, the cache misses. This means structuring your prompts with the stable parts first (system prompt, documents) and variable parts last (user message) is important for cache hit rates.

When It Matters Most

Prompt caching delivers the biggest savings when: (1) you have a long, stable prefix (large system prompts, RAG context), (2) you send many requests with that same prefix (chatbots, agents), and (3) input tokens are a significant portion of your costs. For applications with short, unique prompts, caching provides little benefit. For applications that stuff the context window with documents, it's transformative.

Conceptos relacionados

← Todos los términos
← Prompt Prompt Engineering →