Google ने अपने सस्ते Gemini मॉडल के भीतर ही कंप्यूटर इस्तेमाल की क्षमता जोड़ दी, और साथ में प्रॉम्प्ट इंजेक्शन से बचाव भी दे दिया, Zubnet AI समाचार

Google ने कंप्यूटर इस्तेमाल को Gemini 3.5 Flash के भीतर एक अंतर्निहित टूल में बदल दिया है, जो उसके मॉडल परिवार का तेज़ और कम लागत वाला स्तर है। इसके साथ डेवलपर ऐसे एजेंट बना सकते हैं जो स्क्रीन पर मौजूद चीज़ को देखें, उस पर तर्क करें, और फिर कार्रवाई करें, यानी ब्राउज़र, मोबाइल और डेस्कटॉप वातावरण में क्लिक, टाइप और नेविगेट करें। यह अभी Gemini API और Gemini Enterprise Agent Platform के ज़रिए उपलब्ध है।

यह क्षमता अपने आप में बिल्कुल नई नहीं है। अब तक कंप्यूटर इस्तेमाल एक अलग, स्वतंत्र Gemini 2.5 कंप्यूटर इस्तेमाल मॉडल में रहता था, जिसे आप उसके अपने एंडपॉइंट के रूप में बुलाते थे। यहाँ बदलाव आविष्कार से ज़्यादा जगह का है: स्क्रीन नियंत्रण को सीधे मुख्य Flash मॉडल में समेटकर, Google इसे उस मॉडल की एक डिफ़ॉल्ट क्षमता बना देता है जिस तक अधिकांश लोग पहले से ही पहुँचते हैं, बजाय इसके कि यह एक तरफ़ रखा हुआ विशेष टूल बना रहे।

वही जगह असली कहानी है, क्योंकि Flash सस्ता, बड़े पैमाने वाला स्तर है। कंप्यूटर इस्तेमाल ठीक उसी तरह का फ़ीचर है जिसकी उपयोगिता लागत पर निर्भर करती है, क्योंकि घंटों तक सॉफ़्टवेयर चलाने वाला एजेंट बहुत सारे टोकन खर्च कर देता है। Google इस क्षमता को लंबी अवधि और एंटरप्राइज़ स्वचालन की ओर इंगित करता है, जिसमें लगातार सॉफ़्टवेयर परीक्षण और पेशेवर ऐप्लिकेशनों में फैले नॉलेज वर्क शामिल हैं, यानी वे दोहराव वाले बहु-चरणीय काम जहाँ एक सस्ते मॉडल से क्लिक करवाना वास्तव में अर्थशास्त्र बदल देता है।

ध्यान देने लायक हिस्सा वह है जो Google ने इस क्षमता के साथ भेजा। कोई एजेंट जो किसी जीवित ब्राउज़र या असली डेस्कटॉप को चलाता है, वह प्रॉम्प्ट इंजेक्शन के प्रति विशेष रूप से असुरक्षित होता है, जहाँ कोई दुर्भावनापूर्ण वेब पेज, ईमेल या दस्तावेज़ उन निर्देशों में घुसपैठ कर देता है जिन्हें एजेंट पढ़ता है और उसके व्यवहार पर कब्ज़ा कर लेता है। Google का कहना है कि उसने Gemini 3.5 Flash को इसके विरुद्ध मज़बूत करने के लिए लक्षित प्रतिकूल प्रशिक्षण का उपयोग किया, और उसने दो वैकल्पिक एंटरप्राइज़ सुरक्षा प्रणालियाँ जारी कीं: एक जो एजेंट द्वारा कोई संवेदनशील कार्रवाई करने से पहले उपयोगकर्ता की स्पष्ट पुष्टि माँगती है, और दूसरी जो अप्रत्यक्ष इंजेक्शन प्रयास का पता लगने पर किसी कार्य को अपने आप रोक देती है। एक ही घोषणा में बचाव, न कि केवल क्षमता।

ईमानदार आकलन दो बातें नज़र में रखता है। कंप्यूटर इस्तेमाल वाले एजेंट व्यवहार में अब भी कमज़ोर हैं, और लंबे, बहु-चरणीय कार्यों पर भरोसेमंदता अब भी कठिन, अनसुलझा हिस्सा बनी हुई है, इसलिए एक अंतर्निहित टूल एजेंटों को अपने आप भरोसेमंद नहीं बना देता। और ये सुरक्षा उपाय वैकल्पिक ऐड-ऑन हैं जिन्हें Google ने अपने ही शब्दों में बताया है, स्वतंत्र रूप से परखी गई गारंटियाँ नहीं। लेकिन यह संयोजन ही संकेत है: स्क्रीन चलाने को सस्ता बनाते हुए उसके सबसे बड़े विफलता तरीके के लिए एक बचाव को नाम देना और भेजना, एजेंटों को आगे बढ़ाने का अकेली क्षमता की तुलना में अधिक परिपक्व तरीका है, और यह उस मानक को ऊँचा कर देता है जिस पर प्रतिद्वंद्वियों से वही चीज़ जारी करने की उम्मीद की जाएगी।

और समाचार