Google DeepMind發布了Gemini Robotics-ER 1.6,將其定位為與現有VLA模型協同工作的「策略師」大腦,VLA模型負責處理實體執行。關鍵的架構分工:ER處理空間推理、任務規劃和成功檢測,同時呼叫Google Search等外部工具,而VLA模型將決策轉化為實際的機器人動作。最大的新增功能是儀表讀取能力——機器人現在可以在真實環境中解析儀表、顯示器和讀數。
這種雙腦方法反映了機器人AI的發展方向:從試圖包辦一切的單體模型,轉向在不同任務中表現出色的專門組件。自從我在四月份報導Google關於Gemini Robotics的初步聲明以來,我一直在追蹤這一趨勢——業界意識到將視覺、推理和運動控制塞進一個模型會產生更多問題而非解決方案。Tesla的FSD團隊幾年前就學到了這個教訓,現在機器人技術正在跟上。
最具說服力的是指向能力的改進。Gemini Robotics-ER 1.6能夠準確計數物體並識別精確的像素位置——這些是之前版本搞砸的基礎技能。在DeepMind自己的基準測試中,1.5版本完全錯過了剪刀,還幻覺出了不存在的物體。這些不是炫目的功能,但它們是機器人在受控示範中工作與在混亂現實環境中運行之間的差別。
對於使用機器人API進行開發的開發者來說,這種分離架構很重要。你不再需要押注一個模型來處理一切——你可以潛在地替換推理組件而無需重建運動控制系統。但Google尚未公開發布這個技術,所以我們仍在旁觀他們完善整合。
