Galaxy Universal Robotics, una empresa china de robotica humanoide, ha liberado como codigo abierto AstraBrain-WBC 0.5, un modelo fundacional que describe como un cerebelo de proposito general para robots humanoides. Mientras que el cerebro de un robot se encarga de la planificacion de alto nivel, el cerebelo es la capa que realmente mueve el cuerpo, y este coordina el movimiento de cuerpo completo en tiempo real a traves de 29 degrees of freedom mientras mantiene la maquina equilibrada. La empresa lo califica como el primer modelo de control en tiempo real de cuerpo completo para humanoides que funciona a esta escala de parametros, y el numero es la sorpresa: 80,4 millones de parametros, lo bastante pequeno para ejecutarse en menos de 1.5 milliseconds en una sola RTX 4090.
El modelo fue entrenado con lo que la empresa dice que es el mayor conjunto de datos de movimiento humano de su tipo, aproximadamente 2 mil millones de fotogramas que cubren unas 20,000 hours de movimiento. Los datos abarcan danza, deportes, comportamiento cotidiano, operaciones industriales y transporte colaborativo entre dos personas, con la idea de que un controlador expuesto a ese rango de movimiento humano aprende principios generales de como mover un cuerpo en lugar de una lista fija de rutinas.
El resultado estrella es la generalizacion zero-shot. La empresa muestra el modelo ejecutando acciones complejas que no estaban en sus datos de entrenamiento, incluidos movimientos de baloncesto, boxeo, danza, volteretas y transporte coordinado con un companero, sin volver a entrenarse para ninguna de ellas. De principio a fin, desde la captura de movimiento hasta el robot, la canalizacion se ejecuta en menos de 20 milliseconds. Generalizar a movimientos no vistos es la parte dificil del control de humanoides, donde la mayoria de los sistemas se ajustan habilidad por habilidad, asi que un solo modelo improvisando nuevas acciones de cuerpo completo es la afirmacion que vale la pena vigilar.
Lo que lo hace mas que una demostracion es que el articulo, el codigo y los resultados estan totalmente liberados como codigo abierto. Eso es lo contrario de la direccion predominante, donde los modelos fundacionales roboticos mas capaces son propietarios y estan atados a una plataforma especifica, y significa que investigadores externos pueden de verdad comprobar si las afirmaciones zero-shot se sostienen en su propio hardware. Un modelo pequeno que se ejecuta en una sola GPU de consumo tambien reduce la barrera para poner un control capaz en un robot real en lugar de en un servidor.
Las advertencias son las habituales para un lanzamiento como este. Los numeros y el marco de primicia mundial provienen del propio anuncio de la empresa, las demostraciones estan curadas, y que tan bien se trasladan los resultados de entornos controlados a las tareas desordenadas del mundo real es exactamente lo que decidira la reproduccion. Pero la forma de la apuesta es la parte interesante, y va contra el momento: no un cerebro propietario gigantesco, sino un controlador pequeno, eficiente y abierto que cualquiera puede descargar y probar. Si la generalizacion zero-shot se sostiene, hacer mas del movimiento robotico con menos parametros es una direccion mas util que hacerlo con mas.
