AI爬蟲正在大規模破壞快取基礎設施

Cloudflare工程師透露，AI機器人流量現在每週產生超過100億次請求——大約佔其總流量的三分之一——其模式從根本上打破了傳統快取假設。與人類瀏覽不同，AI爬蟲保持70-100%的唯一URL存取比率，存取很少被訪問的頁面和多樣化的內容類型，無法有效利用快取內容。這創造了研究人員所說的「快取流失」，其中AI流量將頻繁請求的人類內容從邊緣快取中擠出。

這個問題的規模遠遠超出了CDN。Aerospike的Amy Lee指出，AI流量破壞了「直到資料庫層級」的快取架構，而系統工程師Erika S報告說「LRU在AI負載下失效使德國托管變得不可預測」。問題源於檢索增強生成等AI服務創建迭代迴圈，持續存取唯一內容，違反了使快取工作的區域性原則。

Cloudflare和ETH Zurich提出了AI感知快取策略，包括為機器人流量設置獨立的快取層、考慮AI存取模式的自適應演算法，以及pay-per-crawl定價模型。但這些解決方案感覺像是在更深層的架構問題上貼OK繃——我們整個網路基礎設施都是圍繞可預測的人類行為模式設計的，而AI從根本上不遵循這些模式。

對於運行AI應用程式的開發者，這意味著你們的RAG系統和爬蟲可能在它們接觸的每一層基礎設施上都創建了昂貴的快取未命中。考慮實施請求去重、批次處理策略和協調的爬蟲排程。當前的軌跡表明我們需要完全重新思考快取架構，而不僅僅是在邊緣進行優化。

AI爬蟲正在大規模破壞快取基礎設施

更多新聞