中国人形机器人公司 Galaxy Universal Robotics 开源了 AstraBrain-WBC 0.5,这是一个被它称为人形机器人通用小脑的基础模型。如果说机器人的大脑负责高层规划,那么小脑就是真正让身体运动起来的那一层,而这个模型在29个自由度上协调全身的实时运动,同时让机器保持平衡。该公司称它是首个能在这一参数规模下工作的人形机器人全身实时控制模型,而这个数字正是惊喜所在:8040万参数,小到足以在单块 RTX 4090 上以不到1.5毫秒的延迟运行。

该模型是在该公司所称的同类中最大的人体运动数据集上训练的,约20亿帧,覆盖约20,000 hours的运动。这些数据涵盖舞蹈、体育、日常行为、工业操作以及双人协作搬运,其思路是:一个接触过如此广泛人体运动的控制器,学到的是运动身体的一般原理,而不是一份固定的动作清单。

最突出的结果是零样本泛化。该公司展示了模型执行训练数据中没有的复杂动作,包括篮球动作、拳击、舞蹈、空翻以及与搭档的协调搬运,而无需针对其中任何一项重新训练。从动作捕捉到机器人的端到端流程运行时间不到20毫秒。泛化到未见过的动作正是人形控制中最难的部分,大多数系统都是逐项技能地调校的,因此一个能即兴完成新的全身动作的单一模型,才是值得关注的说法。

让它不只是一段演示的,是论文、代码和结果全部开源。这与当下的主流方向恰恰相反,在那个方向上,能力最强的机器人基础模型都是专有的,并与特定平台绑定;而开源意味着外部研究者真的可以在自己的硬件上检验这些零样本说法是否成立。一个能在单块消费级 GPU 上运行的小模型,也降低了把强大控制能力放到真实机器人上(而不是服务器上)的门槛。

对于这样一次发布,需要注意的事项也都是老生常谈。这些数字和世界首个的说法来自该公司自己的公告,演示是经过精选的,受控环境下的结果能在多大程度上迁移到杂乱的真实任务,正是复现要回答的问题。但这场押注的形态才是有趣之处,而它与这一时刻背道而驰:不是一个庞大的专有大脑,而是一个任何人都能下载并尝试的小巧、高效、开放的控制器。如果零样本泛化站得住脚,那么用更少的参数做更多的机器人运动,就是一个比用更多参数去做更有用的方向。