Zubnet AIAprenderWiki › Cache de Prompt
Usar AI

Cache de Prompt

Também conhecido como: Cache de Contexto, Cache de Prefixo
Uma técnica que salva e reutiliza a versão processada de um prefixo de prompt entre múltiplas chamadas de API, evitando computação redundante. Se você envia o mesmo prompt de sistema e contexto documental a cada requisição (o que é comum), o cache de prompt processa isso uma vez e reutiliza a computação armazenada para requisições seguintes. Isso reduz tanto a latência quanto o custo.

Por que isso importa

A maioria das aplicações de IA envia o mesmo prompt de sistema, exemplos few-shot ou documentos de referência a cada requisição. Sem cache, o provedor processa esse prefixo idêntico toda vez. O cache de prompt pode reduzir custos de tokens de entrada em 50–90% e diminuir significativamente o tempo até o primeiro token. Para aplicações de alto volume, isso se traduz em milhares de dólares economizados por mês.

Em profundidade

O mecanismo técnico: durante a fase de "prefill" da inferência de LLM, o modelo processa todos os tokens de entrada e computa suas entradas de KV cache. O cache de prompt armazena esse KV cache para que requisições subsequentes com o mesmo prefixo pulem o prefill da porção armazenada. Apenas novos tokens (a mensagem real do usuário) precisam de processamento. Anthropic, OpenAI e Google oferecem alguma forma de cache de prompt.

Como Usar

A maioria das implementações funciona detectando prefixos correspondentes automaticamente ou permitindo que você marque pontos de cache. A restrição principal: apenas correspondências exatas de prefixo contam. Se seu prompt de sistema muda sequer um token, o cache falha. Isso significa que estruturar seus prompts com as partes estáveis primeiro (prompt de sistema, documentos) e partes variáveis por último (mensagem do usuário) é importante para as taxas de acerto do cache.

Quando Mais Importa

O cache de prompt entrega as maiores economias quando: (1) você tem um prefixo longo e estável (prompts de sistema grandes, contexto RAG), (2) você envia muitas requisições com esse mesmo prefixo (chatbots, agentes), e (3) tokens de entrada são uma porção significativa dos seus custos. Para aplicações com prompts curtos e únicos, o cache oferece pouco benefício. Para aplicações que lotam a janela de contexto com documentos, é transformador.

Conceitos relacionados

← Todos os termos
← ByteDance Cadeia de pensamento →