NVIDIA Labs a publié SpatialClaw cette semaine, un cadre sans entraînement qui repense la manière dont un agent agit lorsqu'il raisonne sur l'espace. Au lieu de choisir dans un menu fixe d'outils, l'agent écrit du code. Un vision-language model (VLM) écrit une cellule Python exécutable par étape dans un noyau Jupyter à état qui arrive préchargé avec des primitives de perception, SAM3 pour la segmentation, Depth-Anything-3 pour la reconstruction 3D, des utilitaires de géométrie et des bibliothèques scientifiques comme NumPy et SciPy. L'agent exécute la cellule, regarde ce qui revient, écrit la suivante, et livre une réponse finale au moyen d'un appel ReturnAnswer. Le cadrage du dépôt lui-même est sans détour quant à la thèse : repenser l'interface d'action pour le raisonnement spatial agentique.
Le changement d'interface d'action, c'est tout l'enjeu. La plupart des agents agissent au travers d'un schéma fixe d'appel d'outils, un ensemble prédéfini de fonctions à arguments structurés parmi lesquelles le modèle sélectionne une option à la fois. L'argument de SpatialClaw, c'est que le code est une interface plus expressive : une seule cellule peut composer plusieurs outils ensemble, examiner des indices intermédiaires comme une carte de profondeur, un masque de segmentation ou une distance mesurée, et réviser l'approche avant de répondre, plutôt que de se verrouiller dans un plan d'entrée de jeu. Pour les questions spatiales, où la réponse dépend habituellement de l'enchaînement d'étapes de perception suivi de calculs de géométrie sur les résultats, cette souplesse est précisément ce qui manque à un menu d'outils rigide.
Les chiffres confortent la conception. Sur 20 bancs d'essai de raisonnement spatial, SpatialClaw atteint une exactitude moyenne de 59,9 %, une amélioration de 11,2 points par rapport au meilleur agent spatial précédent, et il y arrive sans entraînement, sans aucun réglage fin, en orchestrant des modèles de perception prêts à l'emploi sous un VLM. NVIDIA a testé six dorsales réparties sur deux familles de modèles, Qwen 3.5/3.6 et Gemma 4, allant de 26 milliards à 397 milliards de paramètres, ce qui laisse penser que les gains sont une propriété du cadre plutôt que d'un modèle chanceux. Le code est sur GitHub sous une licence NVIDIA non commerciale.
Les limites honnêtes sont celles, habituelles, de cette catégorie. Il s'agit d'un résultat sur banc d'essai, et les bancs d'essai de raisonnement spatial ne sont pas le monde physique désordonné dans lequel un robot doit réellement se déplacer ; de bons scores sont donc une promesse plutôt qu'une preuve de comportement fiable sur du matériel. Sans entraînement signifie aussi que le plafond est fixé par les outils de perception qu'il câble ensemble, et non appris de bout en bout. Mais la direction est ce qui rend la chose digne d'attention, et elle fait écho à là où le domaine s'est déplacé toute la semaine : le code comme interface d'action universelle, le même instinct derrière les agents qui écrivent du Python pour accomplir les choses, et une perception assemblée à partir de primitives composables plutôt que d'un seul modèle monolithique. SpatialClaw est un pari voulant que, pour raisonner sur le monde physique, la chose la plus utile à remettre à un agent ne soit pas un menu d'outils plus gros, mais une cellule vide et un noyau déjà rempli de ces outils.
