NVIDIA 实验室本周发布了 SpatialClaw,这是一个无需训练的框架,它重新思考了智能体在进行空间推理时如何行动。智能体不是从一个固定的工具菜单中进行选择,而是编写代码。一个视觉语言模型在每一步向一个有状态的 Jupyter 内核中写入一个可执行的 Python 单元格,该内核预先加载了感知原语、用于分割的 SAM3、用于三维重建的 Depth-Anything-3、几何工具,以及像 NumPy 和 SciPy 这样的科学库。智能体运行该单元格,查看返回的结果,编写下一个单元格,并通过一个 ReturnAnswer 调用提交最终答案。该代码仓库自己的表述对这一主旨毫不含糊:为智能体式空间推理重新思考动作接口。

动作接口的这一转变正是关键所在。大多数智能体通过一个固定的工具调用模式来行动,即一组预定义的、带有结构化参数的函数,模型每次从中选择一个。SpatialClaw 的论点是,代码是一种表达力更强的接口:单个单元格可以把多个工具组合在一起,检查中间证据,例如一张深度图、一个分割掩码或一个测得的距离,并在回答之前修订方法,而不是一开始就锁定一个计划。对于空间问题,其答案通常取决于把多个感知步骤串联起来,然后对结果进行几何计算,这种灵活性正是僵化的工具菜单所缺乏的。

数据支持了这一设计。在 20 个空间推理基准测试中,SpatialClaw 达到了 59.9% 的平均准确率,比此前最佳的空间智能体提高了 11.2 个百分点,而且它做到这一点无需训练,没有任何微调,靠的是在一个 VLM 之下编排现成的感知模型。NVIDIA 在两个模型系列、即 Qwen 3.5/3.6 和 Gemma 4 上测试了六个主干,参数量从 260 亿到 3970 亿不等,这表明这些收益是该框架的一种特性,而不是某一个走运的模型带来的。代码以非商业 NVIDIA 许可证形式发布在 GitHub 上。

诚实的局限是这一类别中惯有的那些。这是一个基准测试结果,而空间推理基准测试并不是机器人实际必须在其中移动的杂乱物理世界,所以高分是一种承诺,而非在硬件上可靠行为的证明。无需训练也意味着其上限是由它所连接起来的感知工具设定的,而不是端到端学到的。但值得关注的正是这个方向,它与本周整个领域的走向相呼应:代码作为通用动作接口,这与那些编写 Python 来把事情办成的智能体背后是同一种直觉,以及由可组合原语构建的感知,而不是一个单一的庞大模型。SpatialClaw 押下的赌注是,对于关于物理世界的推理来说,交给智能体最有用的东西不是一份更大的工具菜单,而是一个空白单元格,以及一个已经装满了这些工具的内核。