Genesis World 1.0 sort l'évaluation des politiques robot du hardware vers la sim

Le goulot du robot learning n'a jamais été l'entraînement — c'était l'évaluation. Tu entraînes une politique, pis tu réserves le labo de robots pour une semaine pour savoir si elle bat la précédente. Cette boucle d'éval ancrée dans le monde physique, c'est pour ça que les modèles de fondation robotiques itèrent plus lentement que les LLM : un LLM a SWE-Bench que tu roules en quelques minutes, une politique robot a « des centaines d'heures d'opération hardware continue ». Genesis World 1.0 de Genesis AI, sorti le 27 mai, attaque exactement ça. La prétention : un simulateur assez fidèle pour évaluer des politiques en moins d'une demi-heure, sans humain ni hardware dans la boucle, contre plus de 200 heures d'opération robot réelle pour la même suite.

Le chiffre vedette est une corrélation de Pearson de 0,8996 entre les rollouts sim et réels (IC 95 % [0,744, 0,931]), mais c'est pas celui sur lequel un builder devrait se fixer. Le chiffre qui compte, c'est le Mean Maximum Rank Violation : 0,0166. Un harnais d'éval n'a pas besoin d'une fidélité absolue parfaite — il a besoin de classer tes candidats comme la réalité le ferait. MMRV 0,017, c'est l'affirmation que quand la sim dit que la politique A bat la politique B, la réalité est presque toujours d'accord, à travers 3 variantes de modèle, 14 tâches, 200 épisodes chacune, un million d'itérations bootstrap. Le protocole est zéro-shot réel-vers-sim — politiques entraînées seulement sur des données réelles, aucun pré-entraînement simulé qui fuit dans l'éval. Sous le capot : un moteur multi-physique unifié (rigide, FEM, MPM, SPH, PBD), Nyx, un renderer path-traced qui atteint du 1080p sans bruit en 4 ms batché à travers des milliers de rollouts parallèles, et Quadrants, un fork de Taichi qui compile des kernels physiques Python vers CUDA, ROCm, Metal et Vulkan avec autodiff en mode inverse. Les trous honnêtes : 14 tâches, c'est étroit à côté des milliers de SWE-Bench, les embodiments robot ne sont pas divulgués, le hardware derrière le « moins de 0,5 heure » n'est pas précisé, et — le plus important — la corrélation réelle sur les scènes à contact riche n'est jamais validée. Ils citent un gain de 103x sur les scènes à contact lourd mais pas que ces scènes collent à la réalité. Le contact et les déformables, c'est exactement là où le sim-vers-réel a toujours cassé.

Ce que ça fait à l'écosystème, c'est l'histoire des poids ouverts appliquée à la mesure robotique. Le moteur physique et Quadrants sont en Apache 2.0 ; Nyx s'installe en wheels. Tout comme les harnais d'éval LLM ouverts laissent les labos compétitionner sur les modèles plutôt que sur qui contrôle le benchmark, une plateforme sim-éval ouverte avec une fidélité de classement crédible banalise la couche de mesure pour la course à l'embodiment — Physical Intelligence, Skild, Figure, toutes les shops de modèles de fondation robotiques vivent ou meurent sur la vitesse d'itération, et la vitesse d'itération est limitée par l'éval. La pièce sous-discutée, c'est Nyx : la plupart des sims physiques ont un rendu faible, et les politiques basées vision meurent sur l'écart de perception, pas juste l'écart de dynamique. Marier un vrai path-tracer avec la physique — et la réduction revendiquée de 45 % de l'écart à la réalité par FID — c'est le pari que fermer l'écart caméra compte autant que fermer l'écart contact. Quadrants est utile en soi aussi : de la physique différentiable multi-backend veut dire que t'es pas verrouillé sur NVIDIA pour le compute, même si le renderer Nyx l'est encore.

Lundi matin, si tu entraînes des politiques robot : pip-install le moteur Apache 2.0 pis branche l'éval sim comme pré-filtre de classement qui réduit ton ensemble d'éval hardware réel — mais re-mesure le MMRV sur ta propre distribution de tâches avant de lui faire confiance, parce que 14 tâches couvriront pas tes cas de manipulation pis de contact, pis c'est là que la corrélation est la moins prouvée. Traite-le comme une première passe rapide, pas un remplacement du robot. Si t'es pas en robotique pantoute, Quadrants est le takeaway : un compilateur Python-vers-GPU multi-backend avec autodiff à travers CUDA, ROCm, Metal pis Vulkan, utile pour n'importe quel travail de simulation différentiable, complètement découplé du cadre robot.

Genesis World 1.0 sort l'évaluation des politiques robot du hardware vers la sim

Plus de nouvelles