Vision-Language-Action (VLA) 模型代表了为机器人提供类人推理能力的最新尝试——在单一神经架构中结合视觉感知、语言理解和动作规划。这些模型使用transformer骨干网络将视觉输入和文本指令映射为学习表示,能够生成机器人动作,本质上是教会机器理解"折叠T恤"和"放下玻璃杯"的区别。该方法基于LLM背后相同的表示学习原理,将多模态观察投射到潜在空间中,机器人可以在其中推理因果关系。

这很重要,因为VLA模型正在将自己定位为机器人技术的基础模型——物理AI的GPT-3时刻。公司正在押注,适用于语言的相同缩放定律也将适用于具身智能。但与文本生成不同,机器人故障会产生现实世界的后果,使安全性和稳健性问题比学术问题更加紧迫。

最近的研究揭示了这一基础中的严重裂缝。中山大学的研究人员发现,VLA模型存在"语言脆弱性"——指令措辞的微小变化可能导致灾难性的行为变化。与此同时,关于"VLA-Forget"的工作突出了一旦学习后从这些模型中移除不安全行为是多么困难,因为问题知识分布在视觉、语言和动作组件中,而不是隔离在一个模块中。为单模态模型设计的标准遗忘技术在应用于这些混合架构时会失败。

对于使用VLA模型构建的开发者来说,这意味着广泛的红队测试和安全测试应该是不可妥协的。多模态架构的复杂性使调试变得更困难,而不是更容易。在我们解决遗忘和稳健性问题之前,VLA部署可能应该坚持在故障模式被充分理解和控制的受控环境中进行。