NVIDIA Research présente 28 papiers à ICRA 2026 avec 8 spécifiquement ciblant le transfert simulation-vers-réel, le goulot qui a gardé l'IA incarnée en état démo. Chiffres concrets des papiers nommés : COMPASS montre 4,5× d'amélioration en taux de succès moyen vs imitation learning avec ~80% sur des vrais robots via RL résiduel dans Isaac Lab sans données du monde réel. Grasp-MPC rapporte 75% de succès global sur vrais robots vs 41% baseline, entraîné sur 2 millions de trajectoires simulées à travers 8 000 objets en utilisant cuRobo pis GraspGen. PEEK rapporte 41× d'amélioration d'accuracy monde réel sur des politiques sim-seulement pis des gains de 2-3,5× pour les modèles VLA, via guidance de modèle vision-langage au niveau image.

L'histoire de la stack sous ces chiffres, c'est ce qui compte pour les bâtisseurs qui considèrent l'IA incarnée. Isaac Lab de NVIDIA est l'environnement de simulation ; cuRobo gère la planification de mouvement ; GraspGen fournit les datasets de grasping ; Jetson roule l'inférence on-robot. Les 8 papiers amènent cette stack de « projet PhD coûteux » à « processus industriel » — coordination multi-bras pharma à 3× speedup (ScheduleStream sur Jetson), assemblage précis avec 38% d'amélioration de taux de succès pis 30% de réduction de cycle time (SPARR), assemblage multi-étapes à 91% de succès en simulation pis ~11% d'amélioration vs baselines (Refinery), vérification de candidats d'action runtime avec jusqu'à 15% de gains (SEAL), pis transfert zero-shot à des vraies branches d'arbre via arbres synthétiques générés à partir d'équations de croissance biologique (Deformable Cluster Manipulation). Le compute d'entraînement est non-trivial (2M trajectoires × 8K objets) mais les politiques résultantes transfèrent sans collecte de données du monde réel, ce qui est le vrai cost-saver.

La lecture écosystème pour les bâtisseurs : le gap « les robots en simulation, c'est facile, les robots en réalité, c'est dur » se ferme, pis la méthodologie converge sur une stack commune. La randomization de domaine reste la fondation, mais le champ layer dessus du residual policy learning (COMPASS), de la correction de mouvement temps-réel (SPARR, Grasp-MPC), pis de la perception guidée par VLM (PEEK). La stack NVIDIA est l'implémentation de référence de facto parce que les composants sont open ou disponibles, pas à cause de vendor lock-in. Les caveats honnêtes : le chiffre 41× de PEEK est sur des politiques sim-seulement qui étaient proches de zéro dans le monde réel, donc le point de départ absolu compte ; la plupart des baselines sont des chiffres internes de NVIDIA de travaux antérieurs, pas head-to-head contre d'autres frameworks de robotique ; pis les papiers sont blog-summarized, pas encore passés par la peer review au moment de l'écriture. Vaut la peine de tracker quels chiffres survivent à la discussion ICRA.

Si tu bâtis des applications robotiques lundi matin : la recette sim-to-real est maintenant assez reproductible pour que domain-randomization-plus-VLM-guidance soit un point de départ par défaut, pas une direction de recherche. Si tu finances des startups robotiques : la courbe de coût pour amener une politique de manipulation ou de grasping de sim à déployable a rétréci cette année — le 75% de succès grasping monde réel sur des objets nouveaux en clutter, c'est le milestone pratique à marquer.