O gargalo do aprendizado robótico nunca foi o treino — foi a avaliação. Você treina uma política e depois reserva o laboratório de robôs por uma semana para saber se ela supera a anterior. Esse loop de avaliação ancorado no mundo físico é o motivo de os modelos de fundação robóticos iterarem mais devagar que os LLMs: um LLM tem o SWE-Bench que você roda em minutos, uma política robótica tem "centenas de horas de operação contínua de hardware". O Genesis World 1.0 da Genesis AI, lançado em 27 de maio, ataca exatamente isso. A afirmação: um simulador fiel o suficiente para avaliar políticas em menos de meia hora, sem humano nem hardware no loop, contra mais de 200 horas de operação de robô real para a mesma suíte.

O número de destaque é uma correlação de Pearson de 0,8996 entre rollouts de sim e reais (IC 95 % [0,744, 0,931]), mas não é nele que um builder deveria se fixar. O número que importa é o Mean Maximum Rank Violation: 0,0166. Um harness de avaliação não precisa de fidelidade absoluta perfeita — ele precisa rankear seus candidatos como a realidade faria. MMRV 0,017 é a afirmação de que quando a sim diz que a política A supera a B, a realidade quase sempre concorda, através de 3 variantes de modelo, 14 tarefas, 200 episódios cada, um milhão de iterações bootstrap. O protocolo é zero-shot real-para-sim — políticas treinadas só com dados reais, sem pré-treino simulado vazando na avaliação. Por baixo do capô: um motor multifísica unificado (rígido, FEM, MPM, SPH, PBD), Nyx, um renderer path-traced que atinge 1080p sem ruído em 4 ms em batch através de milhares de rollouts paralelos, e Quadrants, um fork do Taichi que compila kernels de física em Python para CUDA, ROCm, Metal e Vulkan com autodiff em modo reverso. As lacunas honestas: 14 tarefas é estreito ao lado dos milhares do SWE-Bench, os embodiments do robô não são divulgados, o hardware por trás do "menos de 0,5 hora" não é especificado, e — o que mais importa — a correlação real em cenas de contato rico nunca é validada. Citam uma aceleração de 103x em cenas de contato pesado mas não que essas cenas acompanhem a realidade. Contato e deformáveis são justamente onde o sim-para-real sempre quebrou.

O que isso faz ao ecossistema é a história dos pesos abertos aplicada à medição robótica. O motor de física e o Quadrants são Apache 2.0; o Nyx se instala como wheels. Assim como os harnesses de avaliação LLM abertos deixam os labs competirem em modelos em vez de em quem controla o benchmark, uma plataforma sim-avaliação aberta com fidelidade de ranking crível banaliza a camada de medição para a corrida do embodiment — Physical Intelligence, Skild, Figure, toda casa de modelos de fundação robóticos vive ou morre pela velocidade de iteração, e a velocidade de iteração é limitada pela avaliação. A peça pouco discutida é o Nyx: a maioria das sims de física tem renderização fraca, e políticas baseadas em visão morrem pela lacuna de percepção, não só pela de dinâmica. Casar um path-tracer real com a física — e a redução reivindicada de 45 % da lacuna de realidade por FID — é a aposta de que fechar a lacuna de câmera importa tanto quanto fechar a de contato. O Quadrants é útil por si só também: física diferenciável multi-backend significa que você não está preso à NVIDIA para o compute, mesmo que o renderer Nyx ainda esteja.

Segunda de manhã, se você treina políticas robóticas: pip-install o motor Apache 2.0 e conecte a avaliação sim como pré-filtro de ranking que reduz seu conjunto de avaliação de hardware real — mas remeça o MMRV na sua própria distribuição de tarefas antes de confiar nele, porque 14 tarefas não cobrirão seus casos de manipulação e contato, e é aí que a correlação está menos provada. Trate como uma primeira passada rápida, não um substituto do robô. Se você não está em robótica de jeito nenhum, o Quadrants é o takeaway: um compilador Python-para-GPU multi-backend com autodiff através de CUDA, ROCm, Metal e Vulkan, útil para qualquer trabalho de simulação diferenciável, completamente desacoplado do enquadramento robótico.