Google DeepMind的新Gemini Robotics-ER 1.6模型使波士顿动力的Spot机器人能够以98%的准确率读取模拟温度计和压力表—这比上一版本23%的性能有了巨大跃升。这一突破来自"智能体视觉"技术,它结合了视觉推理和代码执行,创建了一个"视觉草稿本"来解释具有多个指针、液位和文本标记的复杂仪器,覆盖整个工业设施。
这不仅仅是渐进式改进—这是那种让工业机器人真正可行的能力飞跃。读取仪表听起来很平常,但这正是将有用机器人与昂贵技术演示区分开来的复杂视觉推理类型。即使没有智能体视觉的基础模型也能达到86%的准确率,这一事实表明Google已经从根本上改进了机器人处理视觉信息的方式,而不仅仅是添加了另一个AI层。
值得注意的是Google DeepMind和现代汽车旗下波士顿动力之间的合作。这为他们提供了直接进入汽车工厂进行测试的机会—真实的工业环境,在这里这些能力要么证明自己,要么惨败。从Gemini 3.0 Flash的67%准确率跳跃到机器人专用模型的98%,显示了专门训练对embodied AI应用的重要性。
对于构建与物理世界交互的AI系统的开发者来说,这表明视觉模型需要针对特定任务的fine-tuning才能投入生产。通用多模态模型是不够的—你需要在机器人将实际执行的特定视觉推理任务上训练的模型。
