Google DeepMind ने शुक्रवार को Vision Banana जारी किया, एक सामान्यवादी विज़न मॉडल जो Nano Banana Pro (Gemini 3 Pro Image के पीछे की छवि जनरेटर) को इसके मूल प्रशिक्षण डेटा प्लस मामूली मात्रा में विज़न-कार्य डेटा के मिश्रण पर instruction-tuning करके बनाया गया है। तकनीकी दावा असामान्य है। सेगमेंटेशन, गहराई अनुमान और सतह सामान्य भविष्यवाणी के लिए अलग सिर प्रशिक्षित करने के बजाय, Vision Banana प्रत्येक कार्य के आउटपुट स्पेस को एक RGB छवि के रूप में पैरामीट्रिज़ करता है और बेस जनरेटर को उन्हें सीधे उत्पन्न करने देता है। Cityscapes सिमेंटिक सेगमेंटेशन पर यह 0.699 का mean Intersection-over-Union रिपोर्ट करता है, Meta के SAM 3 के 0.652 पर एक 4.7-अंक की पूर्ण सुधार। आधुनिक विज़न अनुसंधान में दो सबसे अधिक उद्धृत लेखकों He Kaiming और Xie Saining पेपर पर सूचीबद्ध हैं। पेपर शीर्षक में बताया गया मूल थीसिस सीधा है: छवि जनरेटर सामान्यवादी विज़न शिक्षार्थी हैं।
स्थापत्य संबंधी तर्क शीर्षक बेंचमार्क से अधिक महत्वपूर्ण है। शास्त्रीय कंप्यूटर विज़न ने कार्य-विशिष्ट डिकोडर बनाने में दो दशक बिताए हैं: सेगमेंटेशन के लिए घने भविष्यवाणी सिर, गहराई के लिए प्रतिगमन सिर, ऑब्जेक्ट डिटेक्शन के लिए वर्गीकरण सिर। प्रत्येक एक backbone के फ़ीचर प्रतिनिधित्व को कार्य-विशिष्ट आउटपुट प्रारूप में मैप करता है। Vision Banana प्रत्येक कार्य आउटपुट को छवि के रूप में दर्शाने और बेस मॉडल के छवि-निर्माण मार्ग का पुन: उपयोग करके उस मचान को छोड़ देता है। सेगमेंटेशन मास्क RGB छवियाँ हैं। गहराई मानचित्र RGB छवियाँ हैं। सतह सामान्य RGB छवियाँ हैं। मॉडल की सुसंगत छवि उत्पन्न करने की क्षमता को किसी भी कार्य में पिक्सेल-स्तरीय घने भविष्यवाणियाँ उत्पन्न करने की क्षमता के रूप में पुन: उपयोग किया जाता है जो एक चित्रात्मक प्रतिनिधित्व स्वीकार करता है। यह तरकीब नई नहीं है (Microsoft से Painter और SegGPT ने 2023 में समान क्षेत्र का पता लगाया), लेकिन Vision Banana पहला उदाहरण है जहाँ अंतर्निहित जनरेटर फ्रंटियर पैमाने पर है और परिणामी सामान्यवादी डोमेन विशेषज्ञों को हराता है।
ML शोध निहितार्थ यह है कि जनरेटिव प्री-ट्रेनिंग विभेदक कार्यों के लिए उपयोगी संरचनाओं को क्षेत्र की आम तौर पर मानी गई गहराई से अधिक गहरे स्तर पर पकड़ती है। SAM 3 अवधारणा-आधारित सेगमेंटेशन और वर्ग-अज्ञेय मास्क भविष्यवाणी के साथ एक भारी इंजीनियर्ड विशेषज्ञ है; एक सामान्यवादी को 4.7 mIoU अंक खोना एक प्रकार का परिणाम है जो सुझाव देता है कि विशेषज्ञ वास्तुकला कुछ ऐसा नहीं पकड़ रही थी जो जनरेटर पहले से जानता था। यह तर्क भाषा के लिए GPT-3 के बाद से बनाया गया है, जहाँ जनरेटिव प्री-ट्रेनिंग बेंचमार्क के बाद बेंचमार्क पर कार्य-विशिष्ट NLP मॉडल को पीछे छोड़ देती है। Vision Banana कंप्यूटर विज़न के लिए उस तर्क का स्वच्छ संस्करण है। यदि परिणाम अधिक डेटासेट और मोडैलिटीज में स्वतंत्र मूल्यांकन के तहत खड़ा होता है, तो व्यावहारिक परिणाम यह है कि अगली पीढ़ी के विज़न सिस्टम विशेष पाइपलाइनों की तरह कम और कार्य निर्देशों के साथ प्रॉम्प्ट किए गए छवि जनरेटर की तरह अधिक दिखेंगे।
builders के लिए, तत्काल प्रभाव सीमित है क्योंकि Vision Banana अनुसंधान है, शिप किया गया उत्पाद नहीं, और Nano Banana Pro के अंतर्निहित मॉडल वज़न सार्वजनिक रूप से जारी नहीं किए गए हैं। दीर्घकालिक निहितार्थ अधिक दिलचस्प है। यदि छवि निर्माण वास्तव में समझ और उत्पादन के लिए एक एकीकृत इंटरफ़ेस है, तो कंप्यूटर विज़न सिस्टम बनाने की लागत संरचना बदलती है। आज, एक उत्पादन CV पाइपलाइन अक्सर एक backbone, कई कार्य-विशिष्ट सिर, प्रत्येक कार्य के लिए अलग प्रशिक्षण डेटा और लेबल, और एकीकरण गोंद को जोड़ती है। Vision Banana की फ्रेमिंग उसे एक एकल निर्देश-अनुसरण योग्य जनरेटर में संक्षिप्त करती है जिसमें कार्य-सशर्त आउटपुट होते हैं। उदाहरण के लिए, ऐसे एक मॉडल के शीर्ष पर एक स्वायत्त ड्राइविंग धारणा स्टैक का निर्माण चार या पाँच प्रशिक्षण पाइपलाइनों को एक से बदल देगा, और सिस्टम को नए कार्यों (पानी की गहराई की भविष्यवाणी, चकाचौंध पैच की पहचान, आदि) को केवल प्रॉम्प्ट करके निपटाने देगा बजाय पुनः प्रशिक्षण के। यह वैचारिक रूप से स्वच्छ है। क्या यह सुरक्षा-महत्वपूर्ण बाधाओं के तहत विशेषज्ञ पाइपलाइनों की इंजीनियरिंग गुणवत्ता से मेल खाता है, यह अगली बात है जिसका अनुसंधान समुदाय को परीक्षण करना होगा।
