Google DeepMind发布了Gemini Robotics,这是一个基于Gemini 2.0构建的Vision-Language-Action模型,声称能直接控制不同硬件平台的机器人。该系统能处理复杂的操作任务,如折叠折纸和玩牌,适应包括双臂平台在内的新机器人形态,并能从仅仅100个演示中学习新任务。DeepMind表示它能在未见过的环境中工作,遵循开放词汇指令,同时执行"平滑和反应性动作"。

这代表了Google在具身AI方面最激进的推进,从聊天机器人转向物理世界控制。时机并非巧合——机器人公司正在竞相解决硬件-软件集成问题,这个问题一直阻碍有用的机器人进入真实环境。DeepMind训练一个适应任何机器人身体的通用模型的方法,可能解决困扰机器人技术数十年的碎片化问题。

与此同时,KAIST的研究人员发布了Robot-R1,采用强化学习而非监督微调的不同方法。他们认为传统训练方法会导致机器人任务中的"灾难性遗忘和泛化性能降低"。Robot-R1学习预测任务完成的关键点状态,受到DeepSeek-R1推理方法的启发。竞争的方法论突出了关于通用机器人技术最佳路径的持续不确定性。

对于开发者来说,实际问题是这些模型是否真的会作为你可以使用的API发布,还是仍然是研究演示。DeepMind的历史记录表明谨慎乐观——他们之前交付过生产模型,但机器人技术已经在炒作中烧掉了数十亿。真正的测试是Gemini Robotics是否足够可靠,值得有人把产品赌在上面。