Physical Intelligence 發布 π0.5，帶開放世界泛化能力與一套快 5 倍的動作 tokenizer，這是機器人基礎模型的一次爆發時刻

Physical Intelligence 週四發布了 π0.5，這是其通用機器人策略的下一個版本。最醒目的一條宣稱是對新家環境的零樣本泛化：同一個模型，在沒有 fine-tuning 的前提下，能控制一台移動機械臂去打掃一個它從未見過的廚房或臥室。第二項但在結構上同樣重要的是一個新的機器人動作 tokenizer，它把通用策略的訓練速度提高到比舊方法快大約 5 倍。這次發布落在一個很緊的機器人基礎模型新聞視窗裡。Generalist AI 的 GEN-1（4 月 2 日）宣稱在簡單物理任務上達到 99% 的成功率，每個任務只需要 1 小時的機器人資料，訓練集累計 50 萬小時。Google DeepMind 的 Gemini Robotics-ER 1.6（4 月 15 日）升級了「認知大腦」那一層，專門做具身推理。三家實驗室，三個重量級發布，兩週。

最值得先讀的一塊，是 PI 這個動作 tokenizer。tokenization 上的突破是 LLM 之所以能被擴展到大規模訓練的核心之一：選得更好的 token 意味著每單位訓練算力所承載的資訊更多，也就讓模型在同樣資料預算下能泛化得更遠。現在同樣的模式正在機器人領域複現。一套新的動作空間 tokenization 把訓練速度提升 5 倍，這不只是工程上的便利，這是那種「讓原本太難訓練的任務變得可以訓」的轉折點。零樣本在家泛化是能力演示，但真正會在 PI 後續每一版、以及大機率在競爭對手的工作裡反覆出現的，是這個 tokenizer。關於更大的視窗：Generalist 的 GEN-1 回報在「先前模型只能達到 64%」的簡單物理任務上做到 99% 的成功率，每項任務只要 1 小時機器人資料。這是一條樣本效率宣稱，值得拿去讓外部評估去覆核。Gemini Robotics-ER 1.6 則是一個更窄的「推理能力升級」故事，它應該被看作整套機器人 stack 裡的一個元件，而不是一個獨立的通用策略。

機器人基礎模型已經不再只是一個開放的研究問題，它已經開始變成一個商業產品類別。兩週前的 state of the art 還是「π0 能在實驗室裡跑」。今天的 state of the art 已經是「π0.5 能泛化到沒見過的家庭環境，GEN-1 宣稱在簡單任務上達成了 mastery，Gemini Robotics-ER 1.6 是認知推理那一層」。PI、Generalist AI、Google DeepMind、以及整個開源機器人社群（NVIDIA 的 Isaac 發布、Open X-Embodiment 資料集、各學術實驗室）之間的競爭，在一個短視窗裡把能力前沿往前推了一段不小的距離。商業含義是：任何在做物理 AI 的打造者，現在都得選一條基礎模型血統去下注，而這個早期選擇並不明顯。PI 是閉權重，Generalist 同樣閉源，Google 的幾次發布是閉源與開源混搭。這個模式很像兩年前 LLM 領域：拉能力前沿的實驗室閉源出貨，開源帶著時差追趕，應用側打造者要在「能力優勢」和「控制優勢」之間做選擇。

讀到這裡的人大多數並不在出貨機器人。對那一小撮真的在做的人，三條具體觀察。第一，PI 的動作 tokenizer 很可能比能力 demo 本身更重要；盯一下 PI 會不會把這個 tokenizer 單獨發出來，還是把它當護城河留著。第二，Generalist 那句「每任務 1 小時機器人資料」的宣稱，是那種「讓實驗室之外的團隊也能做客製機器人任務」的樣本效率轉折點，前提是它能在外部評估下撐住。等著獨立複現。第三，如果你的產品牽涉到一個在人類環境裡作業的通用機器人（家庭機器人、倉儲物流、長照），這波進步的速度意味著你自家的規劃視野剛剛被縮短了。2027 年的能力前沿和 2025 年的肯定會明顯不一樣；那些押在「機器人會繼續再做五年窄任務專家」的產品定位，是錯的。對非機器人方向的打造者，可以帶走的那條通則是：「更好的 tokenization 解鎖 scale」是深度學習裡會反覆出現的現象。如果你所在的資料領域 tokenization 糟糕或低效，修好這件事，往往就是一份藏在明處的 5x 提速。

Physical Intelligence 發布 π0.5，帶開放世界泛化能力與一套快 5 倍的動作 tokenizer，這是機器人基礎模型的一次爆發時刻

更多新聞