मल्टीमोडल एआई काम करती है दूसरे प्रकार के डेटा — टेक्स्ट, इमेज, ऑडियो, वीडियो — को एक साझा प्रतिनिधित्व स्पेस में एंकोड करके, जहां मॉडल उनके बीच तर्क कर सकता है। सबसे आम दृष्टिकोण प्रत्येक मोडलिटी के लिए अलग एंकोडर नेटवर्क का उपयोग करता है (एक विजन एंकोडर इमेज के लिए, एक ऑडियो एंकोडर बोली के लिए) जो कि क्रूर इनपुट को एम्बेडिंग के अनुक्रम में परिवर्तित करता है, जो फिर टेक्स्ट टोकन के साथ एक साझा ट्रांसफॉर्मर बैकबोन में फीड कर दिया जाता है। यही तरीका है जिसके द्वारा GPT-4o और Claude इमेज के साथ काम करते हैं: एक विजन एंकोडर (अक्सर एक विजन ट्रांसफॉर्मर, या ViT का एक वैरिएंट) इमेज को "विजुअल टोकन" के ग्रिड में परिवर्तित करता है जिसे भाषा मॉडल टेक्स्ट टोकन की तरह प्रोसेस करता है।
मल्टीमोडल समझ और मल्टीमोडल उत्पादन के बीच एक महत्वपूर्ण अंतर है। अधिकांश वर्तमान चैट मॉडल इनपुट तरफ मल्टीमोडल होते हैं — वे इमेज, पीडीएफ और कभी-कभी ऑडियो पढ़ सकते हैं — लेकिन उनका आउटपुट अभी भी मुख्य रूप से टेक्स्ट होता है। सच्चा मल्टीमोडल उत्पादन, जहां एक ही मॉडल इमेज, ऑडियो और टेक्स्ट को नैचुरली उत्पादित कर सकता है, एक कठिन समस्या है। गूगल के Gemini और OpenAI के GPT-4o इस दिशा में आगे बढ़ रहे हैं, लेकिन कई "मल्टीमोडल" उत्पाद वास्तव में पीछे के बाजार में अलग विशेषज्ञ मॉडल के संयोजन का उपयोग करते हैं: एक भाषा मॉडल यह तय करता है कि कौन सी इमेज बनाई जाए, फिर एक टेक्स्ट प्रॉम्प्ट को DALL-E या Imagen जैसे एक डिफ्यूजन मॉडल को देता है जो वास्तव में इसे उत्पादित करता है। इन मॉडलों के बीच की जोड़ी गुणवत्ता और संगति के लिए महत्वपूर्ण है।
यहां विकास बहुत तेज रहा है। 2022 में, एक एआई को एक इमेज के बारे में विश्वसनीय रूप से वर्णन करना उल्लेखनीय था। 2024 तक, मॉडल लिखित नोट्स, जटिल चार्ट, यूआई स्क्रीनशॉट और दृश्य निर्देशों को समझ सकते थे। व्यावहारिक परिणाम बहुत बड़े हैं। डेवलपर्स मल्टीमोडल मॉडल का उपयोग डॉक्यूमेंट प्रोसेसिंग पाइपलाइन बनाने के लिए करते हैं जो स्कैन किए गए पीडीएफ, व्हाइटबोर्ड के फोटो या मिश्रित टेक्स्ट और आरेख तकनीकी स्पेक्स को हैंडल करते हैं — सभी बिना अलग ओसीआर या इमेज क्लासिफिकेशन स्टेप के। क्लॉउड के मामले में, आप एक त्रुटि संदेश का स्क्रीनशॉट, एक हाथ से बनाई गई वायरफ्रेम की तस्वीर या एक जटिल डेटा विजुअलाइजेशन पेस्ट कर सकते हैं, और मॉडल इसके बारे में आपके टेक्स्ट निर्देशों के संदर्भ में तर्क करता है।
एक नुकसान जो लोगों को गलती करता है: "मल्टीमोडल" का अर्थ "सभी मोडलिटी में समान रूप से अच्छा" नहीं होता। अधिकांश मल्टीमोडल LLMs अभी भी मूल रूप से भाषा मॉडल होते हैं जिनमें विजन जोड़ा गया होता है। उनका टेक्स्ट तर्क आमतौर पर उनके दृश्य समझ के बहुत बेहतर होता है। वे एक इमेज में वस्तुओं की गिनती गलत कर सकते हैं, भौमिक