技術機制:在 LLM 推理的「預填充」階段,模型處理所有輸入 token 並計算它們的 KV 快取條目。提示快取儲存這個 KV 快取,使得具有相同前綴的後續請求可以跳過已快取部分的預填充。只有新的 token(使用者的實際訊息)需要處理。Anthropic、OpenAI 和 Google 都提供某種形式的提示快取。
大多數實作透過自動偵測匹配的前綴或讓你標記快取斷點來運作。關鍵限制:只有完全匹配的前綴才算數。如果你的系統提示即使只改變了一個 token,快取就會失效。這意味著將穩定的部分放在前面(系統提示、文件),可變的部分放在最後(使用者訊息),對於快取命中率很重要。
提示快取在以下情況下帶來最大的節省:(1) 你有一個長且穩定的前綴(大型系統提示、RAG 上下文),(2) 你使用相同前綴發送許多請求(聊天機器人、代理),(3) 輸入 token 佔你成本的很大比例。對於具有短且唯一提示的應用程式,快取幾乎沒有好處。對於將上下文窗口塞滿文件的應用程式,它是革命性的。