NVIDIA Labs ने इस सप्ताह SpatialClaw जारी किया, एक ट्रेनिंग-फ्री framework जो इस बात पर फिर से विचार करता है कि एक एजेंट स्थान के बारे में तर्क करते समय कैसे कार्य करता है। tools के एक तय मेनू में से चुनने के बजाय, एजेंट कोड लिखता है। एक vision-language model हर स्टेप पर एक executable Python cell को एक stateful Jupyter kernel में लिखता है जो perception primitives के साथ पहले से लोड आता है, segmentation के लिए SAM3, 3D reconstruction के लिए Depth-Anything-3, geometry utilities, और NumPy तथा SciPy जैसी वैज्ञानिक libraries। एजेंट cell को चलाता है, देखता है कि क्या लौटता है, अगली लिखता है, और एक ReturnAnswer कॉल के साथ अंतिम उत्तर देता है। repository की अपनी रूपरेखा थीसिस के बारे में बेबाक है, एजेंटिक स्थानिक तर्क के लिए एक्शन इंटरफेस पर फिर से विचार।

एक्शन इंटरफेस में यह बदलाव ही पूरी बात है। ज्यादातर एजेंट एक तय tool-calling schema के जरिए कार्य करते हैं, structured arguments वाले functions का एक पूर्वनिर्धारित सेट जिसमें से model एक बार में एक चुनता है। SpatialClaw का तर्क यह है कि कोड एक अधिक अभिव्यंजक इंटरफेस है, एक ही cell कई tools को आपस में जोड़ सकती है, बीच के सबूतों को जांच सकती है जैसे एक depth map, एक segmentation mask, या एक मापी गई दूरी, और उत्तर देने से पहले अपने तरीके को संशोधित कर सकती है, बजाय इसके कि पहले से ही किसी योजना में बंध जाए। स्थानिक सवालों के लिए, जहां उत्तर आमतौर पर perception के चरणों को जोड़ने और फिर परिणामों पर geometry करने पर निर्भर करता है, यही लचीलापन है जिसकी एक कठोर tool मेनू में कमी होती है।

आंकड़े इस design का समर्थन करते हैं। 20 स्थानिक तर्क benchmarks में SpatialClaw 59.9% औसत सटीकता तक पहुंचता है, जो पिछले सर्वश्रेष्ठ स्थानिक एजेंट पर 11.2 अंक का सुधार है, और यह ट्रेनिंग-फ्री तरीके से वहां पहुंचता है, बिना किसी fine-tuning के, एक VLM के तहत तैयार perception models को व्यवस्थित करके। NVIDIA ने दो model परिवारों में छह backbones परखे, Qwen 3.5/3.6 और Gemma 4, जो 26 अरब से 397 अरब पैरामीटर तक फैले हैं, जो संकेत देता है कि लाभ किसी एक भाग्यशाली model के बजाय framework का गुण हैं। कोड GitHub पर एक गैर-व्यावसायिक NVIDIA लाइसेंस के तहत है।

ईमानदार सीमाएं इस श्रेणी के लिए सामान्य ही हैं। यह एक benchmark परिणाम है, और स्थानिक-तर्क benchmarks वह उलझी हुई भौतिक दुनिया नहीं हैं जिसमें एक robot को वास्तव में चलना होता है, इसलिए मजबूत स्कोर hardware पर भरोसेमंद व्यवहार के सबूत के बजाय एक वादा हैं। ट्रेनिंग-फ्री का मतलब यह भी है कि छत उन perception tools से तय होती है जिन्हें यह आपस में जोड़ता है, न कि सिरे से सिरे तक सीखा गया। लेकिन दिशा ही इसे ध्यान देने योग्य बनाती है, और यह उस ओर मेल खाती है जहां यह क्षेत्र पूरे सप्ताह बढ़ा है, सार्वभौमिक एक्शन इंटरफेस के रूप में कोड, वही प्रवृत्ति जो काम पूरा करने के लिए Python लिखने वाले एजेंट्स के पीछे है, और एक अखंड model के बजाय composable primitives से जुटाई गई perception। SpatialClaw एक दांव है कि भौतिक दुनिया के बारे में तर्क करने के लिए, एजेंट को सौंपने के लिए सबसे उपयोगी चीज tools का एक बड़ा मेनू नहीं है, बल्कि एक खाली cell और एक kernel जो पहले से ही उनसे भरा हुआ है।