A NVIDIA Labs lancou o SpatialClaw nesta semana, um framework que dispensa treinamento e repensa como um agente age quando raciocina sobre o espaco. Em vez de escolher dentro de um menu fixo de ferramentas, o agente escreve codigo. Um modelo de visao e linguagem escreve uma celula Python executavel por etapa em um kernel Jupyter com estado, que ja vem pre-carregado com primitivas de percepcao, SAM3 para segmentacao, Depth-Anything-3 para reconstrucao 3D, utilitarios de geometria e bibliotecas cientificas como NumPy e SciPy. O agente executa a celula, observa o que retorna, escreve a proxima e confirma uma resposta final com uma chamada ReturnAnswer. O proprio repositorio e direto sobre a tese: repensar a interface de acao para o raciocinio espacial agentico.

A mudanca na interface de acao e o ponto central. A maioria dos agentes age por meio de um esquema fixo de chamada de ferramentas, um conjunto predefinido de funcoes com argumentos estruturados entre as quais o modelo seleciona uma de cada vez. O argumento do SpatialClaw e que o codigo e uma interface mais expressiva: uma unica celula pode combinar varias ferramentas, inspecionar evidencias intermediarias como um mapa de profundidade, uma mascara de segmentacao ou uma distancia medida, e revisar a abordagem antes de responder, em vez de se prender a um plano desde o inicio. Para perguntas espaciais, em que a resposta geralmente depende de encadear etapas de percepcao e depois aplicar geometria sobre os resultados, essa flexibilidade e exatamente o que falta a um menu rigido de ferramentas.

Os numeros sustentam o projeto. Em 20 benchmarks de raciocinio espacial, o SpatialClaw atinge 59,9% de precisao media, uma melhora de 11,2 pontos sobre o melhor agente espacial anterior, e chega la sem treinamento, sem nenhum ajuste fino, orquestrando modelos de percepcao prontos para uso sob um VLM. A NVIDIA testou seis backbones de duas familias de modelos, Qwen 3.5/3.6 e Gemma 4, variando de 26 bilhoes a 397 bilhoes de parametros, o que sugere que os ganhos sao uma propriedade do framework, e nao de um unico modelo de sorte. O codigo esta no GitHub sob uma licenca nao comercial da NVIDIA.

Os limites honestos sao os de sempre para essa categoria. Este e um resultado de benchmark, e benchmarks de raciocinio espacial nao sao o mundo fisico baguncado pelo qual um robo de fato precisa se mover, entao notas altas sao uma promessa, e nao prova de comportamento confiavel em hardware. Dispensar treinamento tambem significa que o teto e definido pelas ferramentas de percepcao que ele conecta, e nao aprendido de ponta a ponta. Mas a direcao e o que torna o trabalho digno de nota, e ela rima com o rumo que o campo tomou ao longo de toda a semana: o codigo como interface de acao universal, o mesmo instinto por tras de agentes que escrevem Python para realizar tarefas, e a percepcao montada a partir de primitivas combinaveis em vez de um unico modelo monolitico. O SpatialClaw e uma aposta de que, para raciocinar sobre o mundo fisico, a coisa mais util a se entregar a um agente nao e um menu maior de ferramentas, mas uma celula em branco e um kernel ja repleto delas.