VLA模型承諾機器人智慧，但安全漏洞已經顯現

Vision-Language-Action (VLA) 模型代表了為機器人提供類人推理能力的最新嘗試——在單一神經架構中結合視覺感知、語言理解和動作規劃。這些模型使用transformer骨幹網路將視覺輸入和文字指令映射為學習表示，能夠產生機器人動作，本質上是教會機器理解「摺疊T恤」和「放下玻璃杯」的區別。該方法基於LLM背後相同的表示學習原理，將多模態觀察投射到潛在空間中，機器人可以在其中推理因果關係。

這很重要，因為VLA模型正在將自己定位為機器人技術的基礎模型——物理AI的GPT-3時刻。公司正在押注，適用於語言的相同縮放定律也將適用於具身智慧。但與文字生成不同，機器人故障會產生現實世界的後果，使安全性和穩健性問題比學術問題更加緊迫。

最近的研究揭示了這一基礎中的嚴重裂縫。中山大學的研究人員發現，VLA模型存在「語言脆弱性」——指令措辭的微小變化可能導致災難性的行為變化。與此同時，關於「VLA-Forget」的工作突出了一旦學習後從這些模型中移除不安全行為是多麼困難，因為問題知識分佈在視覺、語言和動作組件中，而不是隔離在一個模組中。為單模態模型設計的標準遺忘技術在應用於這些混合架構時會失敗。

對於使用VLA模型構建的開發者來說，這意味著廣泛的紅隊測試和安全測試應該是不可妥協的。多模態架構的複雜性使除錯變得更困難，而不是更容易。在我們解決遺忘和穩健性問題之前，VLA部署可能應該堅持在故障模式被充分理解和控制的受控環境中進行。

VLA模型承諾機器人智慧，但安全漏洞已經顯現

更多新聞