मल्टीमॉडल: परिभाषा और अर्थ — AI विकी

एक मॉडल जो कई प्रकार के डेटा को समझ सकता है और/या उत्पन्न कर सकता है: टेक्स्ट, इमेज, ऑडियो, वीडियो, कोड। क्लॉड इमेज और टेक्स्ट पढ़ सकता है; कुछ मॉडल इमेज या वाचन भी उत्पन्न कर सकते हैं। "मल्टीमोडल" — "एकल मोड" मॉडलों से अलग होता है जो केवल एक प्रकार का ही है।

यह क्यों मायने रखता है

वास्तविक दुनिया के कार्य बहु-माध्यमी होते हैं। आप एक एआई को एक स्क्रीनशॉट दिखाएं और पूछें "यहां क्या गलत है?" या उसे एक चित्र दें और कहें "इसे लागू करें।" बहु-माध्यमी मॉडल इसके संभव बनाते हैं।

गहन अध्ययन

मल्टीमोडल एआई काम करती है दूसरे प्रकार के डेटा — टेक्स्ट, इमेज, ऑडियो, वीडियो — को एक साझा प्रतिनिधित्व स्पेस में एंकोड करके, जहां मॉडल उनके बीच तर्क कर सकता है। सबसे आम दृष्टिकोण प्रत्येक मोडलिटी के लिए अलग एंकोडर नेटवर्क का उपयोग करता है (एक विजन एंकोडर इमेज के लिए, एक ऑडियो एंकोडर बोली के लिए) जो कि क्रूर इनपुट को एम्बेडिंग के अनुक्रम में परिवर्तित करता है, जो फिर टेक्स्ट टोकन के साथ एक साझा ट्रांसफॉर्मर बैकबोन में फीड कर दिया जाता है। यही तरीका है जिसके द्वारा GPT-4o और Claude इमेज के साथ काम करते हैं: एक विजन एंकोडर (अक्सर एक विजन ट्रांसफॉर्मर, या ViT का एक वैरिएंट) इमेज को "विजुअल टोकन" के ग्रिड में परिवर्तित करता है जिसे भाषा मॉडल टेक्स्ट टोकन की तरह प्रोसेस करता है।

समझ बनाम उत्पादन

मल्टीमोडल समझ और मल्टीमोडल उत्पादन के बीच एक महत्वपूर्ण अंतर है। अधिकांश वर्तमान चैट मॉडल इनपुट तरफ मल्टीमोडल होते हैं — वे इमेज, पीडीएफ और कभी-कभी ऑडियो पढ़ सकते हैं — लेकिन उनका आउटपुट अभी भी मुख्य रूप से टेक्स्ट होता है। सच्चा मल्टीमोडल उत्पादन, जहां एक ही मॉडल इमेज, ऑडियो और टेक्स्ट को नैचुरली उत्पादित कर सकता है, एक कठिन समस्या है। गूगल के Gemini और OpenAI के GPT-4o इस दिशा में आगे बढ़ रहे हैं, लेकिन कई "मल्टीमोडल" उत्पाद वास्तव में पीछे के बाजार में अलग विशेषज्ञ मॉडल के संयोजन का उपयोग करते हैं: एक भाषा मॉडल यह तय करता है कि कौन सी इमेज बनाई जाए, फिर एक टेक्स्ट प्रॉम्प्ट को DALL-E या Imagen जैसे एक डिफ्यूजन मॉडल को देता है जो वास्तव में इसे उत्पादित करता है। इन मॉडलों के बीच की जोड़ी गुणवत्ता और संगति के लिए महत्वपूर्ण है।

तेजी से कैसे आगे बढ़ा

यहां विकास बहुत तेज रहा है। 2022 में, एक एआई को एक इमेज के बारे में विश्वसनीय रूप से वर्णन करना उल्लेखनीय था। 2024 तक, मॉडल लिखित नोट्स, जटिल चार्ट, यूआई स्क्रीनशॉट और दृश्य निर्देशों को समझ सकते थे। व्यावहारिक परिणाम बहुत बड़े हैं। डेवलपर्स मल्टीमोडल मॉडल का उपयोग डॉक्यूमेंट प्रोसेसिंग पाइपलाइन बनाने के लिए करते हैं जो स्कैन किए गए पीडीएफ, व्हाइटबोर्ड के फोटो या मिश्रित टेक्स्ट और आरेख तकनीकी स्पेक्स को हैंडल करते हैं — सभी बिना अलग ओसीआर या इमेज क्लासिफिकेशन स्टेप के। क्लॉउड के मामले में, आप एक त्रुटि संदेश का स्क्रीनशॉट, एक हाथ से बनाई गई वायरफ्रेम की तस्वीर या एक जटिल डेटा विजुअलाइजेशन पेस्ट कर सकते हैं, और मॉडल इसके बारे में आपके टेक्स्ट निर्देशों के संदर्भ में तर्क करता है।

जहां विजन कमजोर होता है

एक नुकसान जो लोगों को गलती करता है: "मल्टीमोडल" का अर्थ "सभी मोडलिटी में समान रूप से अच्छा" नहीं होता। अधिकांश मल्टीमोडल LLMs अभी भी मूल रूप से भाषा मॉडल होते हैं जिनमें विजन जोड़ा गया होता है। उनका टेक्स्ट तर्क आमतौर पर उनके दृश्य समझ के बहुत बेहतर होता है। वे एक इमेज में वस्तुओं की गिनती गलत कर सकते हैं, भौमिक

मल्टीमॉडल

यह क्यों मायने रखता है

गहन अध्ययन

समझ बनाम उत्पादन

तेजी से कैसे आगे बढ़ा

जहां विजन कमजोर होता है

संबंधित अवधारणाएँ