A NVIDIA Research está apresentando 28 papers no ICRA 2026 com 8 especificamente mirando a transferência simulação-para-real, o gargalo que tem mantido a IA encarnada em estado demo. Números concretos dos papers nomeados: COMPASS mostra 4,5× de melhoria em taxa média de sucesso vs imitation learning com ~80% em robôs reais via RL residual no Isaac Lab sem dados do mundo real. Grasp-MPC reporta 75% de sucesso geral em robôs reais vs 41% baseline, treinado sobre 2 milhões de trajetórias simuladas através de 8.000 objetos usando cuRobo e GraspGen. PEEK reporta 41× de melhoria de accuracy no mundo real sobre políticas só-sim e ganhos de 2-3,5× para modelos VLA, via guidance de modelo visão-linguagem a nível imagem.
A história da stack sob esses números é o que importa para construtores considerando IA encarnada. O Isaac Lab da NVIDIA é o ambiente de simulação; cuRobo lida com planejamento de movimento; GraspGen provê datasets de grasping; Jetson roda inferência on-robot. Os 8 papers estão trazendo essa stack de "projeto PhD caro" para "processo industrial" — coordenação multi-braço farma a 3× speedup (ScheduleStream no Jetson), montagem precisa com 38% de melhoria em taxa de sucesso e 30% de redução de tempo de ciclo (SPARR), montagem multi-passo a 91% de sucesso em simulação e ~11% de melhoria sobre baselines (Refinery), verificação de candidatos de ação em runtime com até 15% de ganhos (SEAL), e transferência zero-shot a galhos de árvore reais via árvores sintéticas geradas a partir de equações de crescimento biológico (Deformable Cluster Manipulation). O compute de treinamento é não-trivial (2M trajetórias × 8K objetos) mas as políticas resultantes transferem sem coleta de dados do mundo real, o que é a real economia de custo.
A leitura de ecossistema para construtores: a lacuna "robôs em simulação são fáceis, robôs em realidade são difíceis" está se fechando, e a metodologia está convergindo em uma stack comum. Randomização de domínio continua sendo a fundação, mas o campo está colocando em camadas residual policy learning (COMPASS), correção de movimento em tempo real (SPARR, Grasp-MPC), e percepção guiada por VLM (PEEK). A stack NVIDIA é a implementação de referência de facto porque os componentes são abertos ou disponíveis, não por vendor lock-in. As ressalvas honestas: o número 41× do PEEK é sobre políticas só-sim que estavam perto de zero no mundo real, então o ponto de partida absoluto importa; a maioria das baselines são os próprios números internos da NVIDIA de trabalhos anteriores, não head-to-head contra outros frameworks de robótica; e os papers são blog-summarized, não ainda passados por peer review no momento da escrita. Vale rastrear quais números sobrevivem à discussão ICRA.
Se você constrói aplicações robóticas segunda de manhã: a receita sim-to-real é agora reproduzível o suficiente para que domain-randomization-plus-VLM-guidance seja um ponto de partida default, não uma direção de pesquisa. Se você financia startups de robótica: a curva de custo para levar uma política de manipulação ou grasping de sim para deployável encolheu este ano — o 75% de sucesso de grasping no mundo real sobre objetos novos em clutter é o marco prático a marcar.
