O mecanismo técnico: durante a fase de "prefill" da inferência de LLM, o modelo processa todos os tokens de entrada e computa suas entradas de KV cache. O cache de prompt armazena esse KV cache para que requisições subsequentes com o mesmo prefixo pulem o prefill da porção armazenada. Apenas novos tokens (a mensagem real do usuário) precisam de processamento. Anthropic, OpenAI e Google oferecem alguma forma de cache de prompt.
A maioria das implementações funciona detectando prefixos correspondentes automaticamente ou permitindo que você marque pontos de cache. A restrição principal: apenas correspondências exatas de prefixo contam. Se seu prompt de sistema muda sequer um token, o cache falha. Isso significa que estruturar seus prompts com as partes estáveis primeiro (prompt de sistema, documentos) e partes variáveis por último (mensagem do usuário) é importante para as taxas de acerto do cache.
O cache de prompt entrega as maiores economias quando: (1) você tem um prefixo longo e estável (prompts de sistema grandes, contexto RAG), (2) você envia muitas requisições com esse mesmo prefixo (chatbots, agentes), e (3) tokens de entrada são uma porção significativa dos seus custos. Para aplicações com prompts curtos e únicos, o cache oferece pouco benefício. Para aplicações que lotam a janela de contexto com documentos, é transformador.