Physical Intelligence 发布 π0.5，带开放世界泛化能力和一个快 5 倍的动作 tokenizer，这是机器人基础模型的一个爆发时刻

Physical Intelligence 周四发布了 π0.5，这是其通用机器人策略的下一版。最醒目的一条宣称是对新家环境的零样本泛化：同一个模型，在没有 fine-tuning 的前提下，能控制一个移动机械臂去打扫一个它从未见过的厨房或卧室。第二项但在结构上同样重要的是一个新的机器人动作 tokenizer，它把通用策略的训练速度提高到了比旧方法快大约 5 倍。发布落在一个很紧的机器人基础模型新闻窗口里。Generalist AI 的 GEN-1（4 月 2 日）宣称在简单物理任务上达到 99% 的成功率，每个任务只需要 1 小时的机器人数据，训练集累计 50 万小时。Google DeepMind 的 Gemini Robotics-ER 1.6（4 月 15 日）升级了"认知大脑"层，专门做具身推理。三家实验室，三个重磅发布，两周。

最值得先读的一块，是 PI 这个动作 tokenizer。tokenization 上的突破是 LLM 能被扩展到大规模训练的核心之一：选得更好的 token 意味着每单位训练算力承载的信息更多，也就让模型在同样数据预算下能泛化得更远。现在同样的模式在机器人领域复现。一套新的动作空间 tokenization 把训练速度提高 5 倍，这不只是工程上的便利，这是那种"让原本太难训练的任务变得能训"的拐点。零样本在家泛化是能力演示，但真正会在 PI 后续每一版、以及大概率在竞争对手工作里反复出现的，是这个 tokenizer。关于更大的窗口：Generalist 的 GEN-1 报告在"之前模型只能达到 64%"的简单物理任务上做到 99% 的成功率，每任务只要 1 小时机器人数据。这是一条样本效率宣称，值得拿去让外部评估去复核。Gemini Robotics-ER 1.6 则是一个更窄的"推理能力升级"故事，它应该被看作整套机器人栈里的一个组件，而不是一个独立的通用策略。

机器人基础模型已经不再只是一个开放的研究问题，它已经开始变成一个商业产品品类。两周前的 state of the art 还是"π0 能在实验室里跑"。今天的 state of the art 已经是"π0.5 能泛化到没见过的家庭环境，GEN-1 宣称在简单任务上达成了 mastery，Gemini Robotics-ER 1.6 是认知推理那一层"。PI、Generalist AI、Google DeepMind、以及整个开源机器人社区（NVIDIA 的 Isaac 发布、Open X-Embodiment 数据集、各学术实验室）之间的竞争，在一个短窗口里把能力前沿推了真正往前走了一段。商业含义是：任何在做物理 AI 的构建者，现在都要选一条基础模型血统去下注，而这个早期选择并不显然。PI 是闭权重，Generalist 同样闭源，Google 的几次发布是闭源与开源混搭。这个模式很像两年前 LLM 领域：拉能力前沿的实验室闭源出货，开源带着时差追赶，应用侧构建者要在"能力优势"和"控制优势"之间做选择。

读到这里的人大多数并不在出货机器人。对那一小撮真的在做的人，三条具体观察。第一，PI 的动作 tokenizer 很可能比能力 demo 本身更重要；盯一下 PI 会不会把这个 tokenizer 单独发出来，还是当护城河留着。第二，Generalist 那句"每任务 1 小时机器人数据"的宣称，是那种"让实验室之外的团队也能做定制机器人任务"的样本效率拐点，前提是它能在外部评估下撑住。等着独立复现。第三，如果你的产品牵涉到一个在人类环境里作业的通用机器人（家庭机器人、仓储物流、照护），这波进步的速度意味着你自家的规划视野刚刚被缩短了。2027 年的能力前沿和 2025 年的肯定会明显不一样；那些押在"机器人还会继续再做五年窄任务专家"的产品定位，是错的。对非机器人方向的构建者，可以带走的那条通则是："更好的 tokenization 解锁 scale"是深度学习里会反复出现的现象。如果你所在的数据领域 tokenization 糟糕或低效，修好这件事，往往就是一份藏在明处的 5x 提速。

Physical Intelligence 发布 π0.5，带开放世界泛化能力和一个快 5 倍的动作 tokenizer，这是机器人基础模型的一个爆发时刻

更多新闻