Zubnet AIसीखेंWiki › विज़न (Vision)
AI का उपयोग

विज़न (Vision)

इसे भी कहा जाता है: Multimodal Vision, छवि समझ
एक भाषा मॉडल की टेक्स्ट के साथ-साथ छवियों को समझने और उन पर तर्क करने की क्षमता। आप एक फ़ोटो भेजते हैं और पूछते हैं "इस छवि में क्या है?" या एक चार्ट अपलोड करते हैं और पूछते हैं "रुझानों का सारांश दें।" Vision-सक्षम मॉडल (Claude, GPT-4V, Gemini) छवियों को टोकन में एन्कोड करते हैं जिन्हें भाषा मॉडल टेक्स्ट टोकन के साथ प्रोसेस करता है, जिससे एकीकृत टेक्स्ट-और-छवि तर्क संभव होता है।

यह क्यों मायने रखता है

Vision यह बदल देता है कि LLMs क्या कर सकते हैं। बग को शब्दों में वर्णन करने के बजाय, आप उसका स्क्रीनशॉट लेते हैं। तालिका टाइप करने के बजाय, आप उसकी फ़ोटो खींचते हैं। आरेख समझाने के बजाय, आप इसे साझा करते हैं। Vision AI को उन कार्यों के लिए सुलभ बनाता है जहाँ अकेला टेक्स्ट अपर्याप्त है — जो अधिकांश वास्तविक-दुनिया के कार्य हैं। यह रोज़मर्रा के उपयोगकर्ताओं के लिए सबसे प्रभावशाली मल्टीमोडल क्षमता है।

गहन अध्ययन

सामान्य आर्किटेक्चर: छवियों को एक vision encoder (आमतौर पर Vision Transformer या CLIP संस्करण) द्वारा प्रोसेस किया जाता है जो छवि पिक्सेल को विज़ुअल टोकनों के अनुक्रम में बदलता है। इन टोकनों को टेक्स्ट टोकनों के समान embedding स्पेस में प्रक्षेपित किया जाता है और टेक्स्ट इनपुट के साथ संयोजित किया जाता है। फिर भाषा मॉडल विज़ुअल और टेक्स्ट दोनों टोकनों को अपनी मानक attention परतों के माध्यम से एक साथ प्रोसेस करता है, जिससे क्रॉस-मोडल तर्क संभव होता है।

मॉडल क्या देख सकते हैं (और क्या नहीं)

वर्तमान vision मॉडल इनमें उत्कृष्ट हैं: छवि सामग्री का वर्णन करना, छवियों में टेक्स्ट पढ़ना (OCR), चार्ट और आरेख समझना, वस्तुओं और लोगों की पहचान करना, और स्थानिक संबंधों के बारे में तर्क करना। वे इनमें संघर्ष करते हैं: सटीक गिनती (विशेषकर भीड़-भाड़ वाले दृश्यों में), सूक्ष्म स्थानिक तर्क ("A, B के ऊपर है या नीचे?"), छोटा या शैलीबद्ध टेक्स्ट पढ़ना, और विशेषज्ञता वाली छवियों को समझना (मेडिकल स्कैन, विशेष उपकरण)।

रिज़ॉल्यूशन और लागत

उच्च रिज़ॉल्यूशन छवियाँ अधिक विज़ुअल टोकन उत्पन्न करती हैं, अधिक context window की खपत करती हैं और अधिक खर्च होता है। अधिकांश प्रदाता गुणवत्ता और लागत को संतुलित करने के लिए स्वचालित रूप से छवियों का आकार बदलते हैं या उन्हें टाइल करते हैं। एक सामान्य छवि 500–2000 टोकन उत्पन्न कर सकती है। इसे समझने से आपको अनुकूलन में मदद मिलती है: जब संबंधित क्षेत्र की 1080p क्रॉप बेहतर काम करेगी और कम खर्च होगी, तो 4K स्क्रीनशॉट न भेजें।

संबंधित अवधारणाएँ

← सभी शब्द
← विचार-शृंखला वितरित प्रशिक्षण (Distributed Training) →
ESC