L'equipe Qwen d'Alibaba, mieux connue pour ses modeles de langage et de vision a poids ouverts, a publie cette semaine la Qwen-Robot Suite, un ensemble de trois modeles de fondation destines a faire passer l'IA du robot conversationnel a l'action physique. Les trois sont concus pour etre utiles independamment et composables en une seule trousse de bas niveau : Qwen-RobotNav pour deplacer une machine dans le monde, Qwen-RobotManip pour interagir avec lui et Qwen-RobotWorld pour predire ce qui arrive ensuite. L'equipe les presente ensemble comme les briques de base d'agents polyvalents qui ne se contentent pas de voir le monde, mais qui y agissent.
Chaque modele s'attaque a un probleme difficile d'une maniere precise. RobotNav, construit sur Qwen3-VL, replie cinq taches de navigation, soit le suivi d'instructions, l'atteinte de point cible, l'atteinte d'objet cible, le suivi de cible et la conduite autonome, dans un seul jeu de poids, et expose une interface parametree (mode de tache plus reglages d'observation controlables comme le budget de jetons, la decroissance temporelle et les poids par camera) ; entraine sur 15.6 millions d'echantillons aux parametres randomises, il est concu pour generaliser a n'importe quelle configuration a l'inference, sans changement d'architecture. RobotManip est un modele vision-langage-action bati sur Qwen-VL, entraine sur un corpus d'environ 38,100 heures assemble uniquement a partir de jeux de donnees de manipulation open source et de videos de demonstration humaine. RobotWorld est le modele du monde, transformant les poses d'effecteur, les commandes de direction et les points de passage de navigation en une seule interface d'action en langage naturel, co-entrainant plus de 20 types d'incarnation et plus de 500 categories d'action sur 8.6 millions de paires video-texte et plus de 200 millions d'images.
La partie qui merite d'etre soulignee, c'est la posture sur les donnees. Le corpus de preentrainement de RobotManip, selon l'equipe, n'utilise aucune collecte de donnees proprietaires, seulement des jeux de donnees ouverts et de la video de demonstration. Cela compte, parce que le fosse habituel en robotique est justement ce que Qwen dit avoir contourne : une flotte privee qui collecte des donnees de teleoperation auxquelles personne d'autre n'a acces. Batir un modele de manipulation credible a partir de donnees publiques, et publier la pile en ouvert, c'est parier que l'IA incarnee peut suivre la meme trajectoire de poids ouverts que les modeles de langage, plutot que de rester verrouillee derriere celui qui possede le plus de robots.
Les reserves honnetes sont celles qui s'appliquent toujours a cette categorie : il s'agit de modeles et de resultats de tests de reference, pas de robots qui travaillent dans le monde, et l'ecart entre de bons scores sur EWMBench, DreamGen, WorldModelBench et PBench et un comportement fiable sur du materiel reel, c'est la que l'IA incarnee echoue habituellement. Composer trois modeles en une machine qui accomplit un travail utile, c'est aussi plus que telecharger des poids. Mais la direction est sans equivoque, et il n'y a pas que Qwen : NVIDIA a presente ses propres World-Action Models la meme semaine, et la couche que tout le monde court maintenant a definir, c'est le modele de fondation pour les choses qui bougent. Les travaux de simulation du monde de la derniere annee etaient la repetition ; voici le domaine qui se tourne vers l'action sur les atomes.
