Vision-Language-Action (VLA) 模型代表了為機器人提供類人推理能力的最新嘗試——在單一神經架構中結合視覺感知、語言理解和動作規劃。這些模型使用transformer骨幹網路將視覺輸入和文字指令映射為學習表示,能夠產生機器人動作,本質上是教會機器理解「摺疊T恤」和「放下玻璃杯」的區別。該方法基於LLM背後相同的表示學習原理,將多模態觀察投射到潛在空間中,機器人可以在其中推理因果關係。
這很重要,因為VLA模型正在將自己定位為機器人技術的基礎模型——物理AI的GPT-3時刻。公司正在押注,適用於語言的相同縮放定律也將適用於具身智慧。但與文字生成不同,機器人故障會產生現實世界的後果,使安全性和穩健性問題比學術問題更加緊迫。
最近的研究揭示了這一基礎中的嚴重裂縫。中山大學的研究人員發現,VLA模型存在「語言脆弱性」——指令措辭的微小變化可能導致災難性的行為變化。與此同時,關於「VLA-Forget」的工作突出了一旦學習後從這些模型中移除不安全行為是多麼困難,因為問題知識分佈在視覺、語言和動作組件中,而不是隔離在一個模組中。為單模態模型設計的標準遺忘技術在應用於這些混合架構時會失敗。
對於使用VLA模型構建的開發者來說,這意味著廣泛的紅隊測試和安全測試應該是不可妥協的。多模態架構的複雜性使除錯變得更困難,而不是更容易。在我們解決遺忘和穩健性問題之前,VLA部署可能應該堅持在故障模式被充分理解和控制的受控環境中進行。
