Zubnet AI學習Wiki › 提示快取
使用AI

提示快取

上下文快取、前綴快取
一種在多次 API 呼叫之間儲存和重複使用已處理的提示前綴的技術,避免冗餘計算。如果你每次請求都發送相同的系統提示和文件上下文(這很常見),提示快取只處理一次並在後續請求中重複使用快取的計算結果。這減少了延遲和成本。

為什麼重要

大多數 AI 應用程式在每次請求中都發送相同的系統提示、少樣本範例或參考文件。沒有快取的情況下,提供者每次都會處理這個相同的前綴。提示快取可以將輸入 token 成本降低 50–90%,並顯著減少首個 token 的回應時間。對於高流量應用程式,這意味著每月節省數千美元。

深度解析

技術機制:在 LLM 推理的「預填充」階段,模型處理所有輸入 token 並計算它們的 KV 快取條目。提示快取儲存這個 KV 快取,使得具有相同前綴的後續請求可以跳過已快取部分的預填充。只有新的 token(使用者的實際訊息)需要處理。Anthropic、OpenAI 和 Google 都提供某種形式的提示快取。

如何使用

大多數實作透過自動偵測匹配的前綴或讓你標記快取斷點來運作。關鍵限制:只有完全匹配的前綴才算數。如果你的系統提示即使只改變了一個 token,快取就會失效。這意味著將穩定的部分放在前面(系統提示、文件),可變的部分放在最後(使用者訊息),對於快取命中率很重要。

何時最重要

提示快取在以下情況下帶來最大的節省:(1) 你有一個長且穩定的前綴(大型系統提示、RAG 上下文),(2) 你使用相同前綴發送許多請求(聊天機器人、代理),(3) 輸入 token 佔你成本的很大比例。對於具有短且唯一提示的應用程式,快取幾乎沒有好處。對於將上下文窗口塞滿文件的應用程式,它是革命性的。

相關概念

← 所有術語
← 推論 提示注入 →