機器人學習的瓶頸從來不是訓練,而是評估。你訓練好一個策略,然後要把機器人實驗室預訂一週,才能知道它是否勝過上一個。這個錨定在物理世界的評估迴圈,正是機器人基礎模型迭代比 LLM 慢的原因:LLM 有幾分鐘就能跑完的 SWE-Bench,機器人策略卻要「數百小時連續的硬體運行」。Genesis AI 於 5 月 27 日發布的 Genesis World 1.0 正是衝著這一點而來。它的主張是:一個夠逼真的模擬器,能在半小時內評估策略,迴路中無需人也無需硬體,對應的是同一套件在真實機器人上 200 多小時的運行。

頭條數字是模擬與真實 rollout 之間 0.8996 的皮爾遜相關(95% CI [0.744, 0.931]),但這不是 builder 該盯住的數字。真正重要的是 Mean Maximum Rank Violation:0.0166。一個評估框架不需要完美的絕對保真度——它需要像現實那樣給你的候選者排序。MMRV 0.017 的意思是:當模擬說策略 A 勝過策略 B 時,現實幾乎總是認同,這是跨 3 個模型變體、14 個任務、每個 200 個回合、一百萬次 bootstrap 迭代得出的。協定是零樣本真實到模擬——策略只在真實資料上訓練,沒有任何模擬預訓練洩漏進評估。底層是:一個統一的多物理引擎(剛體、FEM、MPM、SPH、PBD);Nyx,一個路徑追蹤渲染器,在數千個並行 rollout 批次處理下以 4 毫秒達到無雜訊 1080p;以及 Quadrants,一個 Taichi 分支,把 Python 物理核心編譯到 CUDA、ROCm、Metal 和 Vulkan,帶反向模式自動微分。誠實的缺口:14 個任務相比 SWE-Bench 的數千個顯得很窄,機器人本體未披露,「半小時以內」背後的硬體未說明,而最關鍵的是——富接觸場景的真實相關性從未驗證。他們引用了重接觸場景 103 倍的加速,卻沒說這些場景貼合現實。接觸和可變形物體,恰恰是模擬到真實一直崩潰的地方。

這對生態系統的影響,是開放權重的故事應用到機器人量測上。物理引擎和 Quadrants 是 Apache 2.0;Nyx 以 wheel 形式安裝。正如開放的 LLM 評估框架讓實驗室在模型上競爭,而非在誰控制基準上競爭,一個具備可信排序保真度的開放模擬評估平台,把量測層商品化,服務於具身競賽——Physical Intelligence、Skild、Figure,每一家機器人基礎模型公司的生死都取決於迭代速度,而迭代速度受制於評估。被低估的部分是 Nyx:大多數物理模擬渲染薄弱,而基於視覺的策略死在感知差距上,不只是動力學差距。把真正的路徑追蹤器和物理結合——以及宣稱的按 FID 計 45% 的現實差距縮減——是一個賭注:縮小相機差距和縮小接觸差距同樣重要。Quadrants 本身也有用:多後端可微物理意味著你在計算上不被 NVIDIA 鎖定,儘管 Nyx 渲染器仍然如此。

週一早上,如果你訓練機器人策略:pip-install 那個 Apache 2.0 引擎,把模擬評估接入做排序預篩選,縮小你真實硬體的評估集——但在信任它之前,先在你自己的任務分布上重新量測 MMRV,因為 14 個任務覆蓋不了你的操作和接觸場景,而那正是相關性最不被證明的地方。把它當作快速的第一遍,而不是機器人的替代品。如果你完全不做機器人,Quadrants 才是要點:一個多後端的 Python 到 GPU 編譯器,跨 CUDA、ROCm、Metal 和 Vulkan 帶自動微分,適用於任何可微模擬工作,與機器人框架完全解耦。