Google DeepMind的新Gemini Robotics-ER 1.6模型使波士頓動力的Spot機器人能夠以98%的準確率讀取類比溫度計和壓力表—這比上一版本23%的表現有了巨大躍升。這一突破來自「代理視覺」技術,它結合了視覺推理和程式碼執行,創建了一個「視覺草稿本」來解釋具有多個指針、液位和文字標記的複雜儀器,覆蓋整個工業設施。
這不僅僅是漸進式改進—這是那種讓工業機器人真正可行的能力飛躍。讀取儀錶聽起來很平常,但這正是將有用機器人與昂貴技術展示區分開來的複雜視覺推理類型。即使沒有代理視覺的基礎模型也能達到86%的準確率,這一事實表明Google已經從根本上改進了機器人處理視覺資訊的方式,而不僅僅是添加了另一個AI層。
值得注意的是Google DeepMind和現代汽車旗下波士頓動力之間的合作。這為他們提供了直接進入汽車工廠進行測試的機會—真實的工業環境,在這裡這些能力要麼證明自己,要麼慘敗。從Gemini 3.0 Flash的67%準確率跳躍到機器人專用模型的98%,顯示了專門訓練對embodied AI應用的重要性。
對於構建與物理世界互動的AI系統的開發者來說,這表明視覺模型需要針對特定任務的fine-tuning才能投入生產。通用多模態模型是不夠的—你需要在機器人將實際執行的特定視覺推理任務上訓練的模型。
