Google的Gemini Robotics声称能控制任何机器人身体

Google DeepMind发布了Gemini Robotics，这是一个基于Gemini 2.0构建的Vision-Language-Action模型，声称能直接控制不同硬件平台的机器人。该系统能处理复杂的操作任务，如折叠折纸和玩牌，适应包括双臂平台在内的新机器人形态，并能从仅仅100个演示中学习新任务。DeepMind表示它能在未见过的环境中工作，遵循开放词汇指令，同时执行"平滑和反应性动作"。

这代表了Google在具身AI方面最激进的推进，从聊天机器人转向物理世界控制。时机并非巧合——机器人公司正在竞相解决硬件-软件集成问题，这个问题一直阻碍有用的机器人进入真实环境。DeepMind训练一个适应任何机器人身体的通用模型的方法，可能解决困扰机器人技术数十年的碎片化问题。

与此同时，KAIST的研究人员发布了Robot-R1，采用强化学习而非监督微调的不同方法。他们认为传统训练方法会导致机器人任务中的"灾难性遗忘和泛化性能降低"。Robot-R1学习预测任务完成的关键点状态，受到DeepSeek-R1推理方法的启发。竞争的方法论突出了关于通用机器人技术最佳路径的持续不确定性。

对于开发者来说，实际问题是这些模型是否真的会作为你可以使用的API发布，还是仍然是研究演示。DeepMind的历史记录表明谨慎乐观——他们之前交付过生产模型，但机器人技术已经在炒作中烧掉了数十亿。真正的测试是Gemini Robotics是否足够可靠，值得有人把产品赌在上面。

Google的Gemini Robotics声称能控制任何机器人身体

更多新闻