机器人学习的瓶颈从来不是训练,而是评估。你训练好一个策略,然后要把机器人实验室预订一周,才能知道它是否胜过上一个。这个锚定在物理世界的评估循环,正是机器人基础模型迭代比 LLM 慢的原因:LLM 有几分钟就能跑完的 SWE-Bench,机器人策略却要"数百小时连续的硬件运行"。Genesis AI 于 5 月 27 日发布的 Genesis World 1.0 正是冲着这一点而来。它的主张是:一个足够逼真的仿真器,能在半小时内评估策略,回路中无需人也无需硬件,对应的是同一套件在真实机器人上 200 多小时的运行。
头条数字是仿真与真实 rollout 之间 0.8996 的皮尔逊相关(95% CI [0.744, 0.931]),但这不是 builder 该盯住的数字。真正重要的是 Mean Maximum Rank Violation:0.0166。一个评估框架不需要完美的绝对保真度——它需要像现实那样给你的候选者排序。MMRV 0.017 的意思是:当仿真说策略 A 胜过策略 B 时,现实几乎总是认同,这是跨 3 个模型变体、14 个任务、每个 200 个回合、一百万次 bootstrap 迭代得出的。协议是零样本真实到仿真——策略只在真实数据上训练,没有任何仿真预训练泄漏进评估。底层是:一个统一的多物理引擎(刚体、FEM、MPM、SPH、PBD);Nyx,一个路径追踪渲染器,在数千个并行 rollout 批处理下以 4 毫秒达到无噪点 1080p;以及 Quadrants,一个 Taichi 分支,把 Python 物理内核编译到 CUDA、ROCm、Metal 和 Vulkan,带反向模式自动微分。诚实的缺口:14 个任务相比 SWE-Bench 的数千个显得很窄,机器人本体未披露,"半小时以内"背后的硬件未说明,而最关键的是——富接触场景的真实相关性从未验证。他们引用了重接触场景 103 倍的加速,却没说这些场景贴合现实。接触和可变形物体,恰恰是仿真到真实一直崩溃的地方。
这对生态系统的影响,是开放权重的故事应用到机器人测量上。物理引擎和 Quadrants 是 Apache 2.0;Nyx 以 wheel 形式安装。正如开放的 LLM 评估框架让实验室在模型上竞争,而非在谁控制基准上竞争,一个具备可信排序保真度的开放仿真评估平台,把测量层商品化,服务于具身竞赛——Physical Intelligence、Skild、Figure,每一家机器人基础模型公司的生死都取决于迭代速度,而迭代速度受制于评估。被低估的部分是 Nyx:大多数物理仿真渲染薄弱,而基于视觉的策略死在感知差距上,不只是动力学差距。把真正的路径追踪器和物理结合——以及宣称的按 FID 计 45% 的现实差距缩减——是一个赌注:缩小相机差距和缩小接触差距同样重要。Quadrants 本身也有用:多后端可微物理意味着你在计算上不被 NVIDIA 锁定,尽管 Nyx 渲染器仍然如此。
周一早上,如果你训练机器人策略:pip-install 那个 Apache 2.0 引擎,把仿真评估接入做排序预筛选,缩小你真实硬件的评估集——但在信任它之前,先在你自己的任务分布上重新测量 MMRV,因为 14 个任务覆盖不了你的操作和接触场景,而那正是相关性最不被证明的地方。把它当作快速的第一遍,而不是机器人的替代品。如果你完全不做机器人,Quadrants 才是要点:一个多后端的 Python 到 GPU 编译器,跨 CUDA、ROCm、Metal 和 Vulkan 带自动微分,适用于任何可微仿真工作,与机器人框架完全解耦。
