阿里巴巴的 Qwen 團隊以開放權重的語言與視覺模型聞名,本週發表了 Qwen-Robot Suite,這套由三款基礎模型組成的系統,目標是把 AI 從聊天機器人帶向實體動作。這三款模型既可獨立使用,也能組合成單一的底層工具組:Qwen-RobotNav 負責讓機器在世界中移動,Qwen-RobotManip 負責與世界互動,Qwen-RobotWorld 則負責預測接下來會發生什麼。團隊把它們定位為通用型代理的建構基石,這些代理不只看見世界,更能在其中行動。

每款模型都以特定方式針對一個棘手問題。RobotNav 建構於 Qwen3-VL 之上,把指令跟隨、點目標、物件目標、目標追蹤與自動駕駛這五項導航任務收進同一組權重,並提供參數化介面(任務模式,加上可控的觀測設定,例如 token 預算、時間衰減與各鏡頭權重);它以 1560萬筆樣本搭配這些隨機化參數訓練,目的是在推論時無需更動架構就能泛化到任何設定。RobotManip 是一款建構於 Qwen-VL 之上的視覺語言動作模型,僅以取自開源操作資料集與人類示範影片、約 38,100小時的語料訓練。RobotWorld 則是世界模型,把末端執行器姿態、轉向指令與導航航點轉換成單一的自然語言動作介面,在 860萬組影片文字配對與 2億多幀畫面上協同訓練超過 20 種具身型態與 500 多個動作類別。

值得特別強調的,是它的資料姿態。依團隊說法,RobotManip 的預訓練語料完全不採集任何專有資料,只用開源資料集與示範影片。這之所以重要,是因為機器人領域慣常的護城河,正是 Qwen 所說自己略過的那件事:一支私有機隊蒐集旁人碰不到的遠端操作資料。從公開資料打造出一款可信的操作模型,並以開源形式發表整套堆疊,是在賭具身智慧能走上語言模型走過的同一條開放權重路線,而不是被持有最多機器人的一方鎖住。

誠實的但書,是這個類別一向都適用的那些:這些是模型與基準測試結果,不是在真實世界中運作的機器人,而 EWMBench、DreamGen、WorldModelBench 與 PBench 上的亮眼分數,與在真實硬體上的可靠表現之間的落差,正是具身智慧通常卡關之處。把三款模型組合成一台能做有用工作的機器,也遠不只是下載權重那麼簡單。但方向毫不含糊,而且不只 Qwen:NVIDIA 在同一週也推銷了自家的 World-Action Models,眾人如今競相定義的那一層,就是會移動之物的基礎模型。過去一年的世界模擬工作是排練;如今這個領域正轉向在原子上行動。