阿里巴巴 Qwen 推出 Qwen-Robot Suite，為具身智慧打造的開源三模型堆疊, Zubnet AI 新聞

阿里巴巴的 Qwen 團隊以開放權重的語言與視覺模型聞名，本週發表了 Qwen-Robot Suite，這套由三款基礎模型組成的系統，目標是把 AI 從聊天機器人帶向實體動作。這三款模型既可獨立使用，也能組合成單一的底層工具組：Qwen-RobotNav 負責讓機器在世界中移動，Qwen-RobotManip 負責與世界互動，Qwen-RobotWorld 則負責預測接下來會發生什麼。團隊把它們定位為通用型代理的建構基石，這些代理不只看見世界，更能在其中行動。

每款模型都以特定方式針對一個棘手問題。RobotNav 建構於 Qwen3-VL 之上，把指令跟隨、點目標、物件目標、目標追蹤與自動駕駛這五項導航任務收進同一組權重，並提供參數化介面（任務模式，加上可控的觀測設定，例如 token 預算、時間衰減與各鏡頭權重）；它以 1560萬筆樣本搭配這些隨機化參數訓練，目的是在推論時無需更動架構就能泛化到任何設定。RobotManip 是一款建構於 Qwen-VL 之上的視覺語言動作模型，僅以取自開源操作資料集與人類示範影片、約 38,100小時的語料訓練。RobotWorld 則是世界模型，把末端執行器姿態、轉向指令與導航航點轉換成單一的自然語言動作介面，在 860萬組影片文字配對與 2億多幀畫面上協同訓練超過 20 種具身型態與 500 多個動作類別。

值得特別強調的，是它的資料姿態。依團隊說法，RobotManip 的預訓練語料完全不採集任何專有資料，只用開源資料集與示範影片。這之所以重要，是因為機器人領域慣常的護城河，正是 Qwen 所說自己略過的那件事：一支私有機隊蒐集旁人碰不到的遠端操作資料。從公開資料打造出一款可信的操作模型，並以開源形式發表整套堆疊，是在賭具身智慧能走上語言模型走過的同一條開放權重路線，而不是被持有最多機器人的一方鎖住。

誠實的但書，是這個類別一向都適用的那些：這些是模型與基準測試結果，不是在真實世界中運作的機器人，而 EWMBench、DreamGen、WorldModelBench 與 PBench 上的亮眼分數，與在真實硬體上的可靠表現之間的落差，正是具身智慧通常卡關之處。把三款模型組合成一台能做有用工作的機器，也遠不只是下載權重那麼簡單。但方向毫不含糊，而且不只 Qwen：NVIDIA 在同一週也推銷了自家的 World-Action Models，眾人如今競相定義的那一層，就是會移動之物的基礎模型。過去一年的世界模擬工作是排練；如今這個領域正轉向在原子上行動。

阿里巴巴 Qwen 推出 Qwen-Robot Suite，為具身智慧打造的開源三模型堆疊

更多新聞