阿里巴巴通義實驗室發布了VimRAG,這是一個多模態RAG框架,專門設計用來解決當添加圖像和影片時會殺死傳統RAG的token爆炸問題。該系統使用「多模態記憶圖」來追蹤推理步驟,使用「圖引導策略最佳化」來修剪冗餘視覺token,將整個過程建模為動態有向無環圖,而不是將所有內容都倒入上下文視窗中。

這解決了一個真正的痛點。任何嘗試過建構多模態RAG的人都知道數學不對——視覺token成本昂貴,通常與特定查詢無關,並且在推理步驟中擴展性很差。雖然文字RAG可以在檢索方面稍微浪費一些,但視覺RAG很快就會碰到token限制,成本快速飆升。VimRAG的圖方法可能是演示能運作和生產系統真正可擴展之間的差別。

GitHub儲存庫顯示這是更廣泛的「多模態智能體強化學習」推進的一部分,訓練程式碼仍在公司審核中。該框架整合了多個SOTA視覺嵌入模型,包括GVE和Qwen3-VL-Embedding,表明阿里巴巴正在將此建構為平台基礎設施,而不是一次性研究專案。強化學習元件(VRAG-RL)允許開發者客製化自己的多模態RAG系統,如果效能聲明成立的話,這可能會加速採用。

對於處理視覺RAG的開發者來說,這可能很重要。僅token效率增益就會使多模態應用在經濟上更可行,特別是對於影片分析或大型圖像資料集。但與大型科技公司的學術發布一樣,真正的測試是訓練程式碼和模型是否真的發布,以及效能是否能在受控基準測試之外轉化。