阿里巴巴Qwen团队更为人熟知的是开放权重的语言和视觉模型,本周它发布了Qwen-Robot Suite,这是一组旨在把AI从聊天机器人带向物理行动的三个基础模型。这三者被设计为既能独立发挥作用,又能组合成一个统一的底层工具包:Qwen-RobotNav负责让机器在世界中移动,Qwen-RobotManip负责与世界交互,Qwen-RobotWorld负责预测接下来会发生什么。团队把它们共同定位为通用智能体的构建模块,让智能体不只是看见世界,更能在世界中行动。
每个模型都以特定方式针对一个难题。RobotNav基于Qwen3-VL构建,把五项导航任务(指令跟随、点目标、物体目标、目标追踪和自动驾驶)折叠进同一套权重,并暴露出一个参数化接口(任务模式,加上可控的观测设置,比如token预算、时间衰减和每个摄像头的权重);它在1560万个样本上以这些参数随机化的方式训练,目的是在推理时无需改动架构即可泛化到任意配置。RobotManip是建立在Qwen-VL之上的视觉语言动作(VLA)模型,仅用来自开源操作数据集和人类演示视频的约38,100小时语料组装训练。RobotWorld则是世界模型,把末端执行器位姿、转向指令和导航航点转化为单一的自然语言动作接口,在860万个视频文本对和2亿多帧画面上联合训练20多种本体类型和500多个动作类别。
值得着重指出的是其数据姿态。按团队的说法,RobotManip的预训练语料完全不使用任何专有数据采集,只有开源数据集和演示视频。这一点之所以重要,是因为机器人领域惯常的护城河,恰恰正是Qwen声称自己跳过的东西:一支私有机队,采集着别人无从触及的遥操作数据。用公开数据构建一个可信的操作模型,并把整个栈开源发布,是在押注具身AI能够沿着语言模型走过的同一条开放权重轨迹前进,而不是被锁死在谁拥有最多机器人的手里。
诚实的告诫正是这一类别一向适用的那些:这些是模型和基准结果,不是在真实世界中工作的机器人,而在EWMBench、DreamGen、WorldModelBench和PBench上的高分,与真实硬件上的可靠行为之间的差距,正是具身AI通常吃力的地方。把三个模型组合成一台能干实事的机器,也远不止下载权重那么简单。但方向毫无疑义,而且不只是Qwen:NVIDIA同周推介了自家的World-Action Models,如今人人争相定义的那一层,就是面向会移动的事物的基础模型。过去一年的世界仿真工作只是排演;如今这一领域正转向对原子世界的行动。
