提示快取：定義與含義 — AI 維基

一種在多次 API 呼叫之間儲存和重複使用已處理的提示前綴的技術，避免冗餘計算。如果你每次請求都發送相同的系統提示和文件上下文（這很常見），提示快取只處理一次並在後續請求中重複使用快取的計算結果。這減少了延遲和成本。

為什麼重要

大多數 AI 應用程式在每次請求中都發送相同的系統提示、少樣本範例或參考文件。沒有快取的情況下，提供者每次都會處理這個相同的前綴。提示快取可以將輸入 token 成本降低 50–90%，並顯著減少首個 token 的回應時間。對於高流量應用程式，這意味著每月節省數千美元。

深度解析

技術機制：在 LLM 推理的「預填充」階段，模型處理所有輸入 token 並計算它們的 KV 快取條目。提示快取儲存這個 KV 快取，使得具有相同前綴的後續請求可以跳過已快取部分的預填充。只有新的 token（使用者的實際訊息）需要處理。Anthropic、OpenAI 和 Google 都提供某種形式的提示快取。

如何使用

大多數實作透過自動偵測匹配的前綴或讓你標記快取斷點來運作。關鍵限制：只有完全匹配的前綴才算數。如果你的系統提示即使只改變了一個 token，快取就會失效。這意味著將穩定的部分放在前面（系統提示、文件），可變的部分放在最後（使用者訊息），對於快取命中率很重要。

何時最重要

提示快取在以下情況下帶來最大的節省：(1) 你有一個長且穩定的前綴（大型系統提示、RAG 上下文），(2) 你使用相同前綴發送許多請求（聊天機器人、代理），(3) 輸入 token 佔你成本的很大比例。對於具有短且唯一提示的應用程式，快取幾乎沒有好處。對於將上下文窗口塞滿文件的應用程式，它是革命性的。

提示快取

為什麼重要

深度解析

如何使用

何時最重要

相關概念