Physical Intelligence 周四发布了 π0.5,这是其通用机器人策略的下一版。最醒目的一条宣称是对新家环境的零样本泛化:同一个模型,在没有 fine-tuning 的前提下,能控制一个移动机械臂去打扫一个它从未见过的厨房或卧室。第二项但在结构上同样重要的是一个新的机器人动作 tokenizer,它把通用策略的训练速度提高到了比旧方法快大约 5 倍。发布落在一个很紧的机器人基础模型新闻窗口里。Generalist AI 的 GEN-1(4 月 2 日)宣称在简单物理任务上达到 99% 的成功率,每个任务只需要 1 小时的机器人数据,训练集累计 50 万小时。Google DeepMind 的 Gemini Robotics-ER 1.6(4 月 15 日)升级了"认知大脑"层,专门做具身推理。三家实验室,三个重磅发布,两周。
最值得先读的一块,是 PI 这个动作 tokenizer。tokenization 上的突破是 LLM 能被扩展到大规模训练的核心之一:选得更好的 token 意味着每单位训练算力承载的信息更多,也就让模型在同样数据预算下能泛化得更远。现在同样的模式在机器人领域复现。一套新的动作空间 tokenization 把训练速度提高 5 倍,这不只是工程上的便利,这是那种"让原本太难训练的任务变得能训"的拐点。零样本在家泛化是能力演示,但真正会在 PI 后续每一版、以及大概率在竞争对手工作里反复出现的,是这个 tokenizer。关于更大的窗口:Generalist 的 GEN-1 报告在"之前模型只能达到 64%"的简单物理任务上做到 99% 的成功率,每任务只要 1 小时机器人数据。这是一条样本效率宣称,值得拿去让外部评估去复核。Gemini Robotics-ER 1.6 则是一个更窄的"推理能力升级"故事,它应该被看作整套机器人栈里的一个组件,而不是一个独立的通用策略。
机器人基础模型已经不再只是一个开放的研究问题,它已经开始变成一个商业产品品类。两周前的 state of the art 还是"π0 能在实验室里跑"。今天的 state of the art 已经是"π0.5 能泛化到没见过的家庭环境,GEN-1 宣称在简单任务上达成了 mastery,Gemini Robotics-ER 1.6 是认知推理那一层"。PI、Generalist AI、Google DeepMind、以及整个开源机器人社区(NVIDIA 的 Isaac 发布、Open X-Embodiment 数据集、各学术实验室)之间的竞争,在一个短窗口里把能力前沿推了真正往前走了一段。商业含义是:任何在做物理 AI 的构建者,现在都要选一条基础模型血统去下注,而这个早期选择并不显然。PI 是闭权重,Generalist 同样闭源,Google 的几次发布是闭源与开源混搭。这个模式很像两年前 LLM 领域:拉能力前沿的实验室闭源出货,开源带着时差追赶,应用侧构建者要在"能力优势"和"控制优势"之间做选择。
读到这里的人大多数并不在出货机器人。对那一小撮真的在做的人,三条具体观察。第一,PI 的动作 tokenizer 很可能比能力 demo 本身更重要;盯一下 PI 会不会把这个 tokenizer 单独发出来,还是当护城河留着。第二,Generalist 那句"每任务 1 小时机器人数据"的宣称,是那种"让实验室之外的团队也能做定制机器人任务"的样本效率拐点,前提是它能在外部评估下撑住。等着独立复现。第三,如果你的产品牵涉到一个在人类环境里作业的通用机器人(家庭机器人、仓储物流、照护),这波进步的速度意味着你自家的规划视野刚刚被缩短了。2027 年的能力前沿和 2025 年的肯定会明显不一样;那些押在"机器人还会继续再做五年窄任务专家"的产品定位,是错的。对非机器人方向的构建者,可以带走的那条通则是:"更好的 tokenization 解锁 scale"是深度学习里会反复出现的现象。如果你所在的数据领域 tokenization 糟糕或低效,修好这件事,往往就是一份藏在明处的 5x 提速。
