阿里巴巴通义实验室发布了VimRAG,这是一个多模态RAG框架,专门设计用来解决当添加图像和视频时会杀死传统RAG的token爆炸问题。该系统使用"多模态内存图"来跟踪推理步骤,使用"图引导策略优化"来修剪冗余视觉token,将整个过程建模为动态有向无环图,而不是将所有内容都倾倒到上下文窗口中。

这解决了一个真正的痛点。任何尝试过构建多模态RAG的人都知道数学不对——视觉token成本昂贵,通常与特定查询无关,并且在推理步骤中扩展性很差。虽然文本RAG可以在检索方面稍微浪费一些,但视觉RAG很快就会碰到token限制,成本快速飙升。VimRAG的图方法可能是演示能工作和生产系统真正可扩展之间的区别。

GitHub仓库显示这是更广泛的"多模态智能体强化学习"推进的一部分,训练代码仍在公司审核中。该框架集成了多个SOTA视觉嵌入模型,包括GVE和Qwen3-VL-Embedding,表明阿里巴巴正在将此构建为平台基础设施,而不是一次性研究项目。强化学习组件(VRAG-RL)允许开发者定制自己的多模态RAG系统,如果性能声明成立的话,这可能会加速采用。

对于处理视觉RAG的开发者来说,这可能很重要。仅token效率增益就会使多模态应用在经济上更可行,特别是对于视频分析或大型图像数据集。但与大型科技公司的学术发布一样,真正的测试是训练代码和模型是否真的发布,以及性能是否能在受控基准测试之外转化。