NVIDIA Labs presento SpatialClaw esta semana, un marco sin entrenamiento que replantea como actua un agente cuando razona sobre el espacio. En lugar de elegir entre un menu fijo de herramientas, el agente escribe codigo. Un modelo de lenguaje y vision (VLM) escribe una celda ejecutable de Python por paso en un kernel de Jupyter con estado que viene precargado con primitivas de percepcion, SAM3 para segmentacion, Depth-Anything-3 para reconstruccion 3D, utilidades de geometria y bibliotecas cientificas como NumPy y SciPy. El agente ejecuta la celda, observa lo que devuelve, escribe la siguiente y fija una respuesta final con una llamada ReturnAnswer. El propio planteamiento del repositorio es directo sobre la tesis: repensar la interfaz de accion para el razonamiento espacial agentico.
El cambio en la interfaz de accion es el nucleo de todo. La mayoria de los agentes actuan mediante un esquema fijo de llamada a herramientas, un conjunto predefinido de funciones con argumentos estructurados que el modelo selecciona de una en una. El argumento de SpatialClaw es que el codigo es una interfaz mas expresiva: una sola celda puede componer varias herramientas a la vez, inspeccionar evidencia intermedia como un mapa de profundidad, una mascara de segmentacion o una distancia medida, y revisar el enfoque antes de responder, en lugar de fijarse en un plan de antemano. Para las preguntas espaciales, donde la respuesta suele depender de encadenar pasos de percepcion y luego aplicar geometria a los resultados, esa flexibilidad es justamente lo que le falta a un menu rigido de herramientas.
Los numeros respaldan el diseno. A lo largo de 20 benchmarks de razonamiento espacial, SpatialClaw alcanza una precision media del 59,9 %, una mejora de 11,2 puntos sobre el mejor agente espacial anterior, y lo consigue sin entrenamiento, sin ajuste fino, orquestando modelos de percepcion ya existentes bajo un VLM. NVIDIA probo seis backbones de dos familias de modelos, Qwen 3.5/3.6 y Gemma 4, con un rango de 26 mil millones a 397 mil millones de parametros, lo que sugiere que las mejoras son una propiedad del marco y no de un unico modelo afortunado. El codigo esta en GitHub bajo una licencia no comercial de NVIDIA.
Los limites honestos son los habituales de esta categoria. Se trata de un resultado en benchmarks, y los benchmarks de razonamiento espacial no son el desordenado mundo fisico por el que un robot debe moverse de verdad, asi que las buenas puntuaciones son una promesa y no una prueba de comportamiento fiable en hardware. Sin entrenamiento tambien significa que el techo lo fijan las herramientas de percepcion que conecta, no un aprendizaje de extremo a extremo. Pero la direccion es lo que lo hace digno de atencion, y rima con el rumbo que ha tomado el campo durante toda la semana: el codigo como interfaz de accion universal, el mismo instinto que hay detras de los agentes que escriben Python para resolver tareas, y la percepcion ensamblada a partir de primitivas componibles en lugar de un unico modelo monolitico. SpatialClaw es una apuesta por que, para razonar sobre el mundo fisico, lo mas util que se le puede dar a un agente no es un menu mas grande de herramientas, sino una celda en blanco y un kernel ya lleno de ellas.
