阿里巴巴Qwen发布Qwen-Robot Suite，面向具身AI的开源三模型栈, Zubnet AI 新闻

阿里巴巴Qwen团队更为人熟知的是开放权重的语言和视觉模型，本周它发布了Qwen-Robot Suite，这是一组旨在把AI从聊天机器人带向物理行动的三个基础模型。这三者被设计为既能独立发挥作用，又能组合成一个统一的底层工具包：Qwen-RobotNav负责让机器在世界中移动，Qwen-RobotManip负责与世界交互，Qwen-RobotWorld负责预测接下来会发生什么。团队把它们共同定位为通用智能体的构建模块，让智能体不只是看见世界，更能在世界中行动。

每个模型都以特定方式针对一个难题。RobotNav基于Qwen3-VL构建，把五项导航任务（指令跟随、点目标、物体目标、目标追踪和自动驾驶）折叠进同一套权重，并暴露出一个参数化接口（任务模式，加上可控的观测设置，比如token预算、时间衰减和每个摄像头的权重）；它在1560万个样本上以这些参数随机化的方式训练，目的是在推理时无需改动架构即可泛化到任意配置。RobotManip是建立在Qwen-VL之上的视觉语言动作（VLA）模型，仅用来自开源操作数据集和人类演示视频的约38,100小时语料组装训练。RobotWorld则是世界模型，把末端执行器位姿、转向指令和导航航点转化为单一的自然语言动作接口，在860万个视频文本对和2亿多帧画面上联合训练20多种本体类型和500多个动作类别。

值得着重指出的是其数据姿态。按团队的说法，RobotManip的预训练语料完全不使用任何专有数据采集，只有开源数据集和演示视频。这一点之所以重要，是因为机器人领域惯常的护城河，恰恰正是Qwen声称自己跳过的东西：一支私有机队，采集着别人无从触及的遥操作数据。用公开数据构建一个可信的操作模型，并把整个栈开源发布，是在押注具身AI能够沿着语言模型走过的同一条开放权重轨迹前进，而不是被锁死在谁拥有最多机器人的手里。

诚实的告诫正是这一类别一向适用的那些：这些是模型和基准结果，不是在真实世界中工作的机器人，而在EWMBench、DreamGen、WorldModelBench和PBench上的高分，与真实硬件上的可靠行为之间的差距，正是具身AI通常吃力的地方。把三个模型组合成一台能干实事的机器，也远不止下载权重那么简单。但方向毫无疑义，而且不只是Qwen：NVIDIA同周推介了自家的World-Action Models，如今人人争相定义的那一层，就是面向会移动的事物的基础模型。过去一年的世界仿真工作只是排演；如今这一领域正转向对原子世界的行动。

阿里巴巴Qwen发布Qwen-Robot Suite，面向具身AI的开源三模型栈

更多新闻