Galaxy Universal Robotics, une entreprise chinoise de robotique humanoide, a ouvert le code d'AstraBrain-WBC 0.5, un modele de fondation qu'elle decrit comme un cervelet polyvalent pour robots humanoides. La ou le cerveau d'un robot gere la planification de haut niveau, le cervelet est la couche qui fait reellement bouger le corps, et celui-ci coordonne le mouvement corps entier en temps reel sur 29 degres de liberte tout en gardant la machine en equilibre. L'entreprise le presente comme le premier modele de controle corps entier en temps reel pour humanoide a fonctionner a cette echelle de parametres, et le chiffre est la surprise: 80,4 millions de parametres, assez petit pour tourner en moins de 1.5 milliseconde sur une seule RTX 4090.

Le modele a ete entraine sur ce que l'entreprise presente comme le plus grand jeu de donnees de mouvement humain de son genre, environ 2 milliards d'images couvrant a peu pres 20,000 heures de mouvement. Les donnees couvrent la danse, le sport, les comportements du quotidien, les operations industrielles et le portage collaboratif a deux, l'idee etant qu'un controleur expose a cet eventail de mouvement humain apprend des principes generaux pour mouvoir un corps plutot qu'une liste figee de routines.

Le resultat phare est la generalisation zero-shot. L'entreprise montre le modele executant des actions complexes qui n'etaient pas dans ses donnees d'entrainement, dont des mouvements de basketball, de la boxe, de la danse, des sauts perilleux et du portage coordonne avec un partenaire, sans avoir ete reentraine pour aucune d'entre elles. De bout en bout, de la capture de mouvement au robot, le pipeline tourne en moins de 20 millisecondes. Generaliser a des mouvements jamais vus est la partie difficile du controle humanoide, ou la plupart des systemes sont regles competence par competence, donc un seul modele qui improvise de nouvelles actions corps entier est l'affirmation qui merite qu'on la surveille.

Ce qui en fait plus qu'une demo, c'est que l'article, le code et les resultats sont entierement ouverts. C'est l'oppose de la direction dominante, ou les modeles de fondation robotiques les plus performants sont proprietaires et lies a une plateforme specifique, et cela signifie que des chercheurs exterieurs peuvent reellement tester si les affirmations zero-shot tiennent sur leur propre materiel. Un petit modele qui tourne sur un seul GPU grand public abaisse aussi la barriere a l'installation d'un controle performant sur un vrai robot plutot que sur un serveur.

Les reserves sont les habituelles pour un lancement de ce type. Les chiffres et le cadrage de premiere mondiale viennent de l'annonce de l'entreprise elle-meme, les demonstrations sont triees sur le volet, et la mesure dans laquelle des resultats en cadre controle se transposent a des taches reelles desordonnees est exactement ce que la reproduction tranchera. Mais la forme du pari est la partie interessante, et elle va a contre-courant du moment: pas un cerveau proprietaire geant, mais un petit controleur efficace et ouvert que n'importe qui peut telecharger et essayer. Si la generalisation zero-shot tient, faire davantage du mouvement robotique avec moins de parametres est une direction plus utile que de le faire avec davantage.