Google DeepMind發布了Gemini Robotics,這是一個基於Gemini 2.0構建的Vision-Language-Action模型,宣稱能直接控制不同硬體平台的機器人。該系統能處理複雜的操作任務,如摺疊摺紙和玩牌,適應包括雙臂平台在內的新機器人形態,並能從僅僅100個示範中學習新任務。DeepMind表示它能在未見過的環境中工作,遵循開放詞彙指令,同時執行「平滑和反應性動作」。
這代表了Google在具身AI方面最積極的推進,從聊天機器人轉向物理世界控制。時機並非巧合——機器人公司正在競相解決硬體-軟體整合問題,這個問題一直阻礙有用的機器人進入真實環境。DeepMind訓練一個適應任何機器人身體的通用模型的方法,可能解決困擾機器人技術數十年的碎片化問題。
與此同時,KAIST的研究人員發布了Robot-R1,採用強化學習而非監督微調的不同方法。他們認為傳統訓練方法會導致機器人任務中的「災難性遺忘和泛化性能降低」。Robot-R1學習預測任務完成的關鍵點狀態,受到DeepSeek-R1推理方法的啟發。競爭的方法論突出了關於通用機器人技術最佳路徑的持續不確定性。
對於開發者來說,實際問題是這些模型是否真的會作為你可以使用的API發布,還是仍然是研究示範。DeepMind的歷史記錄表明謹慎樂觀——他們之前交付過生產模型,但機器人技術已經在炒作中燒掉了數十億。真正的測試是Gemini Robotics是否足夠可靠,值得有人把產品賭在上面。
