Genesis World 1.0 saca la evaluación de políticas robot del hardware a la sim

El cuello de botella del aprendizaje robótico nunca fue el entrenamiento — fue la evaluación. Entrenas una política y luego reservas el laboratorio de robots una semana para saber si supera a la anterior. Ese bucle de evaluación anclado en el mundo físico es por qué los modelos de fundación robóticos iteran más lento que los LLM: un LLM tiene SWE-Bench que corres en minutos, una política robot tiene "cientos de horas de operación continua de hardware". Genesis World 1.0 de Genesis AI, lanzado el 27 de mayo, ataca exactamente esto. La afirmación: un simulador lo bastante fiel para evaluar políticas en menos de media hora, sin humano ni hardware en el bucle, frente a más de 200 horas de operación de robot real para la misma suite.

El número estrella es una correlación de Pearson de 0,8996 entre rollouts de sim y reales (IC 95 % [0,744, 0,931]), pero no es en el que un builder debería fijarse. El número que importa es el Mean Maximum Rank Violation: 0,0166. Un harness de eval no necesita fidelidad absoluta perfecta — necesita rankear tus candidatos como lo haría la realidad. MMRV 0,017 es la afirmación de que cuando la sim dice que la política A supera a la B, la realidad casi siempre concuerda, a través de 3 variantes de modelo, 14 tareas, 200 episodios cada una, un millón de iteraciones bootstrap. El protocolo es zero-shot real-a-sim — políticas entrenadas solo con datos reales, sin preentrenamiento simulado filtrándose en la eval. Bajo el capó: un motor multifísica unificado (rígido, FEM, MPM, SPH, PBD), Nyx, un renderer path-traced que alcanza 1080p sin ruido en 4 ms batcheado a través de miles de rollouts paralelos, y Quadrants, un fork de Taichi que compila kernels de física en Python a CUDA, ROCm, Metal y Vulkan con autodiff en modo inverso. Los huecos honestos: 14 tareas es estrecho junto a los miles de SWE-Bench, los embodiments del robot no se divulgan, el hardware tras el "menos de 0,5 horas" no se precisa, y — el que más importa — la correlación real en escenas de contacto rico nunca se valida. Citan una aceleración de 103x en escenas de contacto pesado pero no que esas escenas sigan a la realidad. El contacto y los deformables son justo donde el sim-a-real siempre se rompió.

Lo que esto le hace al ecosistema es la historia de los pesos abiertos aplicada a la medición robótica. El motor de física y Quadrants son Apache 2.0; Nyx se instala como wheels. Igual que los harnesses de eval LLM abiertos dejan a los labs competir en modelos en vez de en quién controla el benchmark, una plataforma sim-eval abierta con fidelidad de ranking creíble banaliza la capa de medición para la carrera del embodiment — Physical Intelligence, Skild, Figure, cada tienda de modelos de fundación robóticos vive o muere por la velocidad de iteración, y la velocidad de iteración la limita la eval. La pieza poco discutida es Nyx: la mayoría de las sims de física tienen renderizado débil, y las políticas basadas en visión mueren por la brecha de percepción, no solo la de dinámica. Casar un path-tracer real con la física — y la reducción reclamada del 45 % de la brecha de realidad por FID — es la apuesta de que cerrar la brecha de cámara importa tanto como cerrar la de contacto. Quadrants es útil por sí solo también: física diferenciable multi-backend significa que no estás encadenado a NVIDIA para el cómputo, aunque el renderer Nyx aún lo esté.

El lunes por la mañana, si entrenas políticas robot: pip-install el motor Apache 2.0 y conecta la eval sim como prefiltro de ranking que reduce tu conjunto de eval de hardware real — pero remide el MMRV en tu propia distribución de tareas antes de confiar en él, porque 14 tareas no cubrirán tus casos de manipulación y contacto, y ahí es donde la correlación está menos probada. Trátalo como una primera pasada rápida, no un reemplazo del robot. Si no estás en robótica para nada, Quadrants es el takeaway: un compilador Python-a-GPU multi-backend con autodiff a través de CUDA, ROCm, Metal y Vulkan, útil para cualquier trabajo de simulación diferenciable, completamente desacoplado del marco robot.

Genesis World 1.0 saca la evaluación de políticas robot del hardware a la sim

Más noticias