阿里巴巴的VimRAG解決多模態RAG的token膨脹問題

阿里巴巴通義實驗室發布了VimRAG，這是一個多模態RAG框架，專門設計用來解決當添加圖像和影片時會殺死傳統RAG的token爆炸問題。該系統使用「多模態記憶圖」來追蹤推理步驟，使用「圖引導策略最佳化」來修剪冗餘視覺token，將整個過程建模為動態有向無環圖，而不是將所有內容都倒入上下文視窗中。

這解決了一個真正的痛點。任何嘗試過建構多模態RAG的人都知道數學不對——視覺token成本昂貴，通常與特定查詢無關，並且在推理步驟中擴展性很差。雖然文字RAG可以在檢索方面稍微浪費一些，但視覺RAG很快就會碰到token限制，成本快速飆升。VimRAG的圖方法可能是演示能運作和生產系統真正可擴展之間的差別。

GitHub儲存庫顯示這是更廣泛的「多模態智能體強化學習」推進的一部分，訓練程式碼仍在公司審核中。該框架整合了多個SOTA視覺嵌入模型，包括GVE和Qwen3-VL-Embedding，表明阿里巴巴正在將此建構為平台基礎設施，而不是一次性研究專案。強化學習元件(VRAG-RL)允許開發者客製化自己的多模態RAG系統，如果效能聲明成立的話，這可能會加速採用。

對於處理視覺RAG的開發者來說，這可能很重要。僅token效率增益就會使多模態應用在經濟上更可行，特別是對於影片分析或大型圖像資料集。但與大型科技公司的學術發布一樣，真正的測試是訓練程式碼和模型是否真的發布，以及效能是否能在受控基準測試之外轉化。

阿里巴巴的VimRAG解決多模態RAG的token膨脹問題

更多新聞