Google的Gemini Robotics宣稱能控制任何機器人身體

Google DeepMind發布了Gemini Robotics，這是一個基於Gemini 2.0構建的Vision-Language-Action模型，宣稱能直接控制不同硬體平台的機器人。該系統能處理複雜的操作任務，如摺疊摺紙和玩牌，適應包括雙臂平台在內的新機器人形態，並能從僅僅100個示範中學習新任務。DeepMind表示它能在未見過的環境中工作，遵循開放詞彙指令，同時執行「平滑和反應性動作」。

這代表了Google在具身AI方面最積極的推進，從聊天機器人轉向物理世界控制。時機並非巧合——機器人公司正在競相解決硬體-軟體整合問題，這個問題一直阻礙有用的機器人進入真實環境。DeepMind訓練一個適應任何機器人身體的通用模型的方法，可能解決困擾機器人技術數十年的碎片化問題。

與此同時，KAIST的研究人員發布了Robot-R1，採用強化學習而非監督微調的不同方法。他們認為傳統訓練方法會導致機器人任務中的「災難性遺忘和泛化性能降低」。Robot-R1學習預測任務完成的關鍵點狀態，受到DeepSeek-R1推理方法的啟發。競爭的方法論突出了關於通用機器人技術最佳路徑的持續不確定性。

對於開發者來說，實際問題是這些模型是否真的會作為你可以使用的API發布，還是仍然是研究示範。DeepMind的歷史記錄表明謹慎樂觀——他們之前交付過生產模型，但機器人技術已經在炒作中燒掉了數十億。真正的測試是Gemini Robotics是否足夠可靠，值得有人把產品賭在上面。

Google的Gemini Robotics宣稱能控制任何機器人身體

更多新聞