Zubnet AI学习Wiki › 提示缓存
使用AI

提示缓存

别名:上下文缓存、前缀缓存
一种在多次 API 调用间保存并复用已处理的提示前缀的技术,避免重复计算。如果你在每次请求中发送相同的系统提示和文档上下文(这很常见),提示缓存只处理一次并在后续请求中复用已缓存的计算结果。这同时降低了延迟和成本。

为什么重要

大多数 AI 应用会在每次请求中发送相同的系统提示、少样本示例或参考文档。如果不使用缓存,提供商每次都要重新处理这些相同的前缀。提示缓存可以将输入 token 成本降低 50–90%,并显著减少首个 token 的响应时间。对于高流量应用,这意味着每月节省数千美元。

深度解析

技术机制:在 LLM 推理的"预填充"阶段,模型处理所有输入 token 并计算其 KV 缓存条目。提示缓存存储这个 KV 缓存,使后续具有相同前缀的请求可以跳过缓存部分的预填充。只有新 token(用户的实际消息)需要处理。Anthropic、OpenAI 和 Google 都提供某种形式的提示缓存。

如何使用

大多数实现通过自动检测匹配前缀或让你标记缓存断点来工作。关键约束:只有精确的前缀匹配才算。如果你的系统提示哪怕改变了一个 token,缓存就会失效。这意味着将稳定部分放在前面(系统提示、文档),将可变部分放在后面(用户消息),对于提高缓存命中率非常重要。

何时最有价值

提示缓存在以下情况下节省最多:(1) 你有一个较长且稳定的前缀(大型系统提示、RAG 上下文),(2) 你使用该前缀发送大量请求(聊天机器人、智能体),(3) 输入 token 占据成本的很大比例。对于提示简短且独特的应用,缓存几乎没有收益。对于在上下文窗口中填充大量文档的应用,它具有变革性的效果。

相关概念

← 所有术语
← 提示注入 提示词 →
ESC