大多数 AI 应用会在每次请求中发送相同的系统提示、少样本示例或参考文档。如果不使用缓存,提供商每次都要重新处理这些相同的前缀。提示缓存可以将输入 token 成本降低 50–90%,并显著减少首个 token 的响应时间。对于高流量应用,这意味着每月节省数千美元。
技术机制:在 LLM 推理的"预填充"阶段,模型处理所有输入 token 并计算其 KV 缓存条目。提示缓存存储这个 KV 缓存,使后续具有相同前缀的请求可以跳过缓存部分的预填充。只有新 token(用户的实际消息)需要处理。Anthropic、OpenAI 和 Google 都提供某种形式的提示缓存。
大多数实现通过自动检测匹配前缀或让你标记缓存断点来工作。关键约束:只有精确的前缀匹配才算。如果你的系统提示哪怕改变了一个 token,缓存就会失效。这意味着将稳定部分放在前面(系统提示、文档),将可变部分放在后面(用户消息),对于提高缓存命中率非常重要。
提示缓存在以下情况下节省最多:(1) 你有一个较长且稳定的前缀(大型系统提示、RAG 上下文),(2) 你使用该前缀发送大量请求(聊天机器人、智能体),(3) 输入 token 占据成本的很大比例。对于提示简短且独特的应用,缓存几乎没有收益。对于在上下文窗口中填充大量文档的应用,它具有变革性的效果。