Les ingénieurs de Cloudflare ont révélé que le trafic des bots d'IA génère maintenant plus de 10 milliards de requêtes par semaine—environ un tiers de leur trafic total—avec des patterns qui brisent fondamentalement les assumptions de cache traditionnelles. Contrairement à la navigation humaine, les crawlers d'IA maintiennent des ratios d'accès URL uniques de 70-100%, accédant à des pages rarement visitées et à des types de contenu diversifiés qui ne peuvent pas tirer parti du contenu en cache efficacement. Cela crée ce que les chercheurs appellent le "cache churn", où le trafic d'IA déplace le contenu humain fréquemment demandé des caches edge.

L'ampleur de ce problème s'étend bien au-delà des CDN. Amy Lee d'Aerospike a noté que le trafic d'IA brise les architectures de cache "jusqu'au niveau de la base de données", tandis que l'ingénieure système Erika S a rapporté que "l'échec de LRU sous charge d'IA rend l'hébergement allemand imprévisible". Le problème vient des services d'IA comme la génération augmentée par récupération qui créent des boucles itératives accédant consistamment à du contenu unique, violant les principes de localité qui font fonctionner le cache.

Cloudflare et ETH Zurich proposent des stratégies de cache conscientes de l'IA incluant des tiers de cache séparés pour le trafic de bots, des algorithmes adaptatifs qui tiennent compte des patterns d'accès IA, et des modèles de tarification pay-per-crawl. Mais ces solutions ressemblent à des pansements sur un problème architectural plus profond—toute notre infrastructure web a été conçue autour de patterns de comportement humain prévisibles que l'IA ne suit fondamentalement pas.

Pour les développeurs qui font tourner des applications d'IA, cela signifie que vos systèmes RAG et crawlers créent probablement des cache miss coûteux à chaque couche d'infrastructure qu'ils touchent. Considérez implémenter la déduplication de requêtes, des stratégies de batching, et des horaires de crawling coordonnés. La trajectoire actuelle suggère qu'on doit repenser entièrement les architectures de cache, pas juste optimiser sur les bords.