IIT Madras के 20 साल के छात्र Dev Mandal ने 'computer-use-large' नाम का एक डेटासेट रिलीज़ किया है जिसने Hugging Face पर पहले ही 1,00,000 डाउनलोड पार कर लिए हैं। यह डेटासेट मानव कंप्यूटर इंटरैक्शन को कैप्चर करता है — स्क्रीनशॉट्स, माउस क्लिक्स, कीबोर्ड इनपुट्स — जो विशेष रूप से AI एजेंट्स को इंसानों की तरह कंप्यूटर कंट्रोल करने के लिए ट्रेन करने के लिए डिज़ाइन किया गया है।

यह बिल्कुल सही समय पर आया है। Computer-use AI अभी का गोल्ड रश है, Anthropic का Claude आगे चल रहा है और OpenAI अफवाहों के मुताबिक इसके पीछे है। लेकिन ये मॉडल्स बदनाम तौर पर डेटा के भूखे होते हैं, और असली मानव कंप्यूटर व्यवहार के quality डेटासेट दुर्लभ हैं। ज्यादातर मौजूदा डेटासेट या तो synthetic हैं, सीमित scope के हैं, या कॉर्पोरेट दीवारों के पीछे लॉक हैं।

Original कवरेज में जो गायब है वो है डेटा quality और methodology के बारे में crucial context। यह जाने बिना कि Mandal ने ये interactions कैसे collect किए — क्या ये crowdsourced थे? असली workflows से? Privacy-sanitized? — यह judge करना असंभव है कि क्या यह डेटासेट वाकई needle move करेगा। Download numbers suggest करते हैं कि developers इस type के डेटा के लिए इतने desperate हैं कि वे कुछ भी try करेंगे, लेकिन downloads का मतलब deployment success नहीं है।

Computer-use agents बनाने वाले developers के लिए, यह synthetic डेटा के बजाय मानव व्यवहार patterns पर train करने का एक दुर्लभ अवसर है। लेकिन सावधानी से आगे बढ़ें — training resources commit करने से पहले डेटा quality को thoroughly inspect करें। Computer-use space इतनी तेज़ी से move कर रहा है कि एक mediocre डेटासेट आपके project को हफ्तों पीछे धकेल सकता है।