Salesforce AI Research發布了VoiceAgentRAG,這是一個透過預測快取解決語音AI基本延遲問題的開源系統。雙代理架構運行一個「Fast Talker」,從記憶體語義快取中在0.35毫秒內提供回應,同時「Slow Thinker」背景代理監控對話並預取可能的後續話題到本地儲存。這種方法比標準向量資料庫查詢提供316倍加速,後者通常消耗50-300毫秒——這是自然對話的整個回應預算。
這解決了當今阻礙語音代理的核心約束。雖然基於文字的RAG系統可以承受多秒的「思考」暫停,但語音介面需要200毫秒以下的回應才能感覺自然。大多數生產系統在LLM甚至開始產生之前就在資料庫往返上消耗了這個預算。時間約束解釋了為什麼語音助理與文字介面相比仍然感覺笨拙——這不僅僅是模型的問題,還有基礎設施。
技術實作揭示了明智的工程選擇。VoiceAgentRAG的基於FAISS的語義快取直接索引文件embeddings,而不是索引查詢,即使使用者措辭與預測不同也能實現適當的語義搜尋。系統使用0.40的餘弦相似度閾值(低於典型的0.95查詢到查詢閾值)並透過300秒TTL和LRU淘汰維護快取新鮮度。背景代理產生「文件風格描述」而不是問題,以更好地將embeddings與實際知識庫內容對齊。
對於構建語音介面的開發者來說,這代表了一條清晰的前進道路。開源發布意味著你可以實作預測快取而無需從頭重建。但真正的洞察是架構性的——透過非同步背景處理將檢索與產生解耦。這種模式可能會成為任何即時AI應用的標準,在這些應用中延遲比完美準確性更重要。
