Salesforce AI Research a publié VoiceAgentRAG, un système open-source qui résout le problème fondamental de latence de l'IA vocale grâce à la mise en cache prédictive. L'architecture à double agent fait tourner un « Fast Talker » qui sert les réponses depuis un cache sémantique en mémoire en 0,35ms, tandis qu'un agent en arrière-plan « Slow Thinker » surveille les conversations et pré-charge les sujets de suivi probables dans le stockage local. Cette approche offre une accélération de 316x par rapport aux requêtes de base de données vectorielles standard qui consomment typiquement 50-300ms—tout le budget de réponse pour une conversation naturelle.
Ceci s'attaque à la contrainte centrale qui freine les agents vocaux aujourd'hui. Alors que les systèmes RAG basés sur le texte peuvent se permettre des pauses de « réflexion » de plusieurs secondes, les interfaces vocales ont besoin de réponses sous-200ms pour sembler naturelles. La plupart des systèmes de production explosent ce budget sur les allers-retours de base de données avant même que le LLM commence à générer. La contrainte temporelle explique pourquoi les assistants vocaux semblent encore maladroits comparés aux interfaces textuelles—c'est pas juste les modèles, c'est l'infrastructure.
L'implémentation technique révèle des choix d'ingénierie intelligents. Plutôt que d'indexer les requêtes, le cache sémantique basé sur FAISS de VoiceAgentRAG indexe directement les embeddings de documents, permettant une recherche sémantique appropriée même quand la formulation de l'utilisateur diffère des prédictions. Le système utilise un seuil de similarité cosinus de 0,40 (plus bas que les seuils typiques de 0,95 requête-à-requête) et maintient la fraîcheur du cache avec un TTL de 300 secondes et une éviction LRU. L'agent en arrière-plan génère des « descriptions de style document » plutôt que des questions pour mieux aligner les embeddings avec le contenu réel de la base de connaissances.
Pour les développeurs qui construisent des interfaces vocales, ceci représente un chemin clair vers l'avant. La publication open-source signifie que vous pouvez implémenter la mise en cache prédictive sans reconstruire à partir de zéro. Mais la vraie insight est architecturale—découpler la récupération de la génération grâce au traitement asynchrone en arrière-plan. Ce pattern deviendra probablement standard pour toute application AI en temps réel où la latence compte plus que la précision parfaite.
