提示缓存：定义与含义 — AI 维基

一种在多次 API 调用间保存并复用已处理的提示前缀的技术，避免重复计算。如果你在每次请求中发送相同的系统提示和文档上下文（这很常见），提示缓存只处理一次并在后续请求中复用已缓存的计算结果。这同时降低了延迟和成本。

为什么重要

大多数 AI 应用会在每次请求中发送相同的系统提示、少样本示例或参考文档。如果不使用缓存，提供商每次都要重新处理这些相同的前缀。提示缓存可以将输入 token 成本降低 50–90%，并显著减少首个 token 的响应时间。对于高流量应用，这意味着每月节省数千美元。

深度解析

技术机制：在 LLM 推理的"预填充"阶段，模型处理所有输入 token 并计算其 KV 缓存条目。提示缓存存储这个 KV 缓存，使后续具有相同前缀的请求可以跳过缓存部分的预填充。只有新 token（用户的实际消息）需要处理。Anthropic、OpenAI 和 Google 都提供某种形式的提示缓存。

如何使用

大多数实现通过自动检测匹配前缀或让你标记缓存断点来工作。关键约束：只有精确的前缀匹配才算。如果你的系统提示哪怕改变了一个 token，缓存就会失效。这意味着将稳定部分放在前面（系统提示、文档），将可变部分放在后面（用户消息），对于提高缓存命中率非常重要。

何时最有价值

提示缓存在以下情况下节省最多：(1) 你有一个较长且稳定的前缀（大型系统提示、RAG 上下文），(2) 你使用该前缀发送大量请求（聊天机器人、智能体），(3) 输入 token 占据成本的很大比例。对于提示简短且独特的应用，缓存几乎没有收益。对于在上下文窗口中填充大量文档的应用，它具有变革性的效果。

提示缓存

为什么重要

深度解析

如何使用

何时最有价值

相关概念