Zubnet AIAprenderWiki › Prompt Caching
Usar AI

Prompt Caching

También conocido como: Caché de Contexto, Caché de Prefijo
Una técnica que guarda y reutiliza la versión procesada de un prefijo de prompt entre múltiples llamadas a la API, evitando cálculos redundantes. Si envías el mismo system prompt y contexto de documentos con cada solicitud (lo cual es común), el prompt caching lo procesa una vez y reutiliza el cálculo en caché para solicitudes posteriores. Esto reduce tanto la latencia como el costo.

Por qué importa

La mayoría de las aplicaciones de IA envían el mismo system prompt, ejemplos few-shot o documentos de referencia con cada solicitud. Sin caché, el proveedor procesa este prefijo idéntico cada vez. El prompt caching puede reducir los costos de tokens de entrada entre un 50–90% y reducir significativamente el tiempo al primer token. Para aplicaciones de alto volumen, esto se traduce en miles de dólares ahorrados por mes.

En profundidad

El mecanismo técnico: durante la fase de "prefill" de la inferencia del LLM, el modelo procesa todos los tokens de entrada y calcula sus entradas de KV cache. El prompt caching almacena esta KV cache para que las solicitudes posteriores con el mismo prefijo se salten el prefill de la porción en caché. Solo los tokens nuevos (el mensaje real del usuario) necesitan procesamiento. Anthropic, OpenAI y Google ofrecen alguna forma de prompt caching.

Cómo Usarlo

La mayoría de las implementaciones funcionan detectando prefijos coincidentes automáticamente o permitiéndote marcar puntos de corte de caché. La restricción clave: solo las coincidencias exactas de prefijo cuentan. Si tu system prompt cambia por siquiera un token, la caché falla. Esto significa que estructurar tus prompts con las partes estables primero (system prompt, documentos) y las partes variables al final (mensaje del usuario) es importante para las tasas de acierto de caché.

Cuándo Importa Más

El prompt caching ofrece los mayores ahorros cuando: (1) tienes un prefijo largo y estable (system prompts grandes, contexto RAG), (2) envías muchas solicitudes con ese mismo prefijo (chatbots, agentes), y (3) los tokens de entrada son una porción significativa de tus costos. Para aplicaciones con prompts cortos y únicos, el caching proporciona poco beneficio. Para aplicaciones que llenan la ventana de contexto con documentos, es transformador.

Conceptos relacionados

← Todos los términos
← Prompt Prompt de sistema →
ESC
Empieza a escribir para buscar...