輝達 (NVIDIA) 實驗室本週發表了 SpatialClaw,這是一套免訓練 (training-free) 框架,重新思考智慧體在推理空間時該如何行動。智慧體不再從一份固定的工具選單中挑選,而是直接撰寫程式碼。一個視覺語言模型每一步會把一個可執行的 Python 儲存格寫入一個具狀態的 Jupyter 核心,該核心已預先載入感知基本元件、負責分割的 SAM3、負責 3D 重建的 Depth-Anything-3、幾何運算工具,以及像 NumPy 與 SciPy 這類科學運算函式庫。智慧體執行該儲存格、檢視回傳的結果、撰寫下一個儲存格,最後以一次 ReturnAnswer 呼叫送出最終答案。這個專案本身對其核心論點直言不諱:重新思考智慧體式空間推理的行動介面。

行動介面的轉變正是整件事的重點。多數智慧體是透過固定的工具呼叫結構描述來行動,也就是從一組預先定義、帶有結構化參數的函式中,每次選取一個。SpatialClaw 的論點是:程式碼是更具表達力的介面,單一儲存格就能把數個工具組合在一起、檢視像深度圖、分割遮罩或量測距離這類中間證據,並在回答前修改作法,而不是一開始就把計畫鎖死。對於空間問題來說,答案通常取決於串接多個感知步驟、再針對結果進行幾何運算,這種彈性正是僵化的工具選單所缺乏的。

數據支持了這項設計。在 20 項空間推理基準測試中,SpatialClaw 達到 59.9% 的平均準確率,比先前最佳的空間智慧體進步了 11.2 分,而且它是在免訓練、完全不做微調的情況下做到的,方法是在一個 VLM 之下調度現成的感知模型。輝達 (NVIDIA) 測試了橫跨兩個模型系列的六個骨幹模型,也就是 Qwen 3.5/3.6 與 Gemma 4,參數量從 260 億到 3970 億不等,這意味著效能提升是這套框架本身的特性,而非靠某個幸運的模型。程式碼以非商業的輝達 (NVIDIA) 授權形式放在 GitHub 上。

誠實的限制就是這個類別常見的那些。這是一項基準測試結果,而空間推理基準測試並不是機器人實際必須在其中移動的混亂物理世界,所以亮眼的分數是一種承諾,而非在硬體上可靠運作的證明。免訓練同時也意味著它的天花板是由它所串接的感知工具所決定,而不是端到端學習而來。但值得注意的正是這個方向,而它也呼應了整個業界這一週的走向:把程式碼當成通用的行動介面,這跟那些撰寫 Python 來把事情做好的智慧體背後是同一種直覺,而感知則由可組合的基本元件拼裝而成,而非單一的龐大模型。SpatialClaw 押注的是:對於推理物理世界這件事,交給智慧體最有用的東西並不是一份更大的工具選單,而是一個空白的儲存格,加上一個早已裝滿了那些工具的核心。