El mecanismo técnico: durante la fase de "prefill" de la inferencia del LLM, el modelo procesa todos los tokens de entrada y calcula sus entradas de KV cache. El prompt caching almacena esta KV cache para que las solicitudes posteriores con el mismo prefijo se salten el prefill de la porción en caché. Solo los tokens nuevos (el mensaje real del usuario) necesitan procesamiento. Anthropic, OpenAI y Google ofrecen alguna forma de prompt caching.
La mayoría de las implementaciones funcionan detectando prefijos coincidentes automáticamente o permitiéndote marcar puntos de corte de caché. La restricción clave: solo las coincidencias exactas de prefijo cuentan. Si tu system prompt cambia por siquiera un token, la caché falla. Esto significa que estructurar tus prompts con las partes estables primero (system prompt, documentos) y las partes variables al final (mensaje del usuario) es importante para las tasas de acierto de caché.
El prompt caching ofrece los mayores ahorros cuando: (1) tienes un prefijo largo y estable (system prompts grandes, contexto RAG), (2) envías muchas solicitudes con ese mismo prefijo (chatbots, agentes), y (3) los tokens de entrada son una porción significativa de tus costos. Para aplicaciones con prompts cortos y únicos, el caching proporciona poco beneficio. Para aplicaciones que llenan la ventana de contexto con documentos, es transformador.