Google DeepMind发布了Gemini Robotics-ER 1.6,将其定位为与现有VLA模型协同工作的"策略师"大脑,VLA模型负责处理物理执行。关键的架构分工:ER处理空间推理、任务规划和成功检测,同时调用Google Search等外部工具,而VLA模型将决策转化为实际的机器人动作。最大的新增功能是仪表读取能力——机器人现在可以在真实环境中解析仪表、显示器和读数。

这种双脑方法反映了机器人AI的发展方向:从试图包办一切的单体模型,转向在不同任务中表现出色的专门组件。自从我在四月份报道Google关于Gemini Robotics的初步声明以来,我一直在跟踪这一趋势——业界意识到将视觉、推理和运动控制塞进一个模型会产生更多问题而非解决方案。Tesla的FSD团队几年前就学到了这个教训,现在机器人技术正在跟上。

最具说服力的是指向能力的改进。Gemini Robotics-ER 1.6能够准确计数物体并识别精确的像素位置——这些是之前版本搞砸的基础技能。在DeepMind自己的基准测试中,1.5版本完全错过了剪刀,还幻觉出了不存在的物体。这些不是炫酷的功能,但它们是机器人在受控演示中工作与在混乱现实环境中运行之间的区别。

对于使用机器人API进行开发的开发者来说,这种分离架构很重要。你不再需要押注一个模型来处理一切——你可以潜在地替换推理组件而无需重建运动控制系统。但Google尚未公开发布这个技术,所以我们仍在旁观他们完善集成。