सामान्य आर्किटेक्चर: छवियों को एक vision encoder (आमतौर पर Vision Transformer या CLIP संस्करण) द्वारा प्रोसेस किया जाता है जो छवि पिक्सेल को विज़ुअल टोकनों के अनुक्रम में बदलता है। इन टोकनों को टेक्स्ट टोकनों के समान embedding स्पेस में प्रक्षेपित किया जाता है और टेक्स्ट इनपुट के साथ संयोजित किया जाता है। फिर भाषा मॉडल विज़ुअल और टेक्स्ट दोनों टोकनों को अपनी मानक attention परतों के माध्यम से एक साथ प्रोसेस करता है, जिससे क्रॉस-मोडल तर्क संभव होता है।
वर्तमान vision मॉडल इनमें उत्कृष्ट हैं: छवि सामग्री का वर्णन करना, छवियों में टेक्स्ट पढ़ना (OCR), चार्ट और आरेख समझना, वस्तुओं और लोगों की पहचान करना, और स्थानिक संबंधों के बारे में तर्क करना। वे इनमें संघर्ष करते हैं: सटीक गिनती (विशेषकर भीड़-भाड़ वाले दृश्यों में), सूक्ष्म स्थानिक तर्क ("A, B के ऊपर है या नीचे?"), छोटा या शैलीबद्ध टेक्स्ट पढ़ना, और विशेषज्ञता वाली छवियों को समझना (मेडिकल स्कैन, विशेष उपकरण)।
उच्च रिज़ॉल्यूशन छवियाँ अधिक विज़ुअल टोकन उत्पन्न करती हैं, अधिक context window की खपत करती हैं और अधिक खर्च होता है। अधिकांश प्रदाता गुणवत्ता और लागत को संतुलित करने के लिए स्वचालित रूप से छवियों का आकार बदलते हैं या उन्हें टाइल करते हैं। एक सामान्य छवि 500–2000 टोकन उत्पन्न कर सकती है। इसे समझने से आपको अनुकूलन में मदद मिलती है: जब संबंधित क्षेत्र की 1080p क्रॉप बेहतर काम करेगी और कम खर्च होगी, तो 4K स्क्रीनशॉट न भेजें।