Zubnet AIसीखेंWiki › Voyage AI
कंपनियाँ

Voyage AI

इसे भी कहा जाता है: voyage-3, डोमेन-विशिष्ट एम्बेडिंग
एम्बेडिंग मॉडल कंपनी कोड, विधि, वित्त और बहुभाषी खोज के लिए विशेष वेक्टर बनाने वाली है। उनके मॉडल MTEB लीडरबोर्ड के शीर्ष पर स्थिर रूप से रैंक करते हैं, API के माध्यम से उपलब्ध सर्वोत्तम रिट्रीवल क्वालिटी प्रदान करते हैं।

यह क्यों मायने रखता है

वॉयेज एआई ने साबित कर दिया कि एम्बेडिंग्स बड़े भाषा मॉडल्स के समान इंजीनियरिंग ध्यान और निवेश का हकदार हैं। एक बाजार में जहां अधिकांश प्रदाता वेक्टर प्रतिनिधत्व को कम मार्जिन उपयोगिता के रूप में उपलब्ध कराते हैं, वॉयेज ने दिखाया कि डोमेन-विशिष्ट एम्बेडिंग मॉडल्स पुनर्प्राप्ति योग्यता में महत्वपूर्ण सुधार कर सकते हैं — उत्पादन RAG प्रणालियों में सबसे बड़ा लीवर है। गूगल द्वारा उनका अधिग्रहण थीसिस को सत्यापित कर दिया कि जो एम्बेडिंग लेयर के मालिक होते हैं, वे AI खोज प्रतिष्ठान की नींव के मालिक होते हैं।

गहन अध्ययन

वॉयेज एआई 2023 में स्टैनफोर्ड कंप्यूटर साइंस सर्कल्स से उभरा, जिसकी स्थापना टेंग्यू मा द्वारा की गई थी, जो एक सहायक प्रोफेसर हैं, जिनके मशीन लर्निंग सिद्धांत में अपनी अनुसंधान के कारण एम्बेडिंग मॉडल क्या बन सकते हैं, इस पर असाधारण रूप से विस्तृत दृष्टिकोण था। व्यापक एलईएम गोल्ड रश का पीछा करने के बजाय, मा और उनकी टीम ने एक गणना की बेट: एआई में वास्तविक बुनियादी बाधा उत्पादन नहीं था — यह खोज थी। हर आरएजी पाइपलाइन, हर सेमेंटिक सर्च सिस्टम, हर रिकॉमेंडेशन इंजन अपने एम्बेडिंग की गुणवत्ता पर जीवित या मृत होता है, और अधिकांश डेवलपर्स खुद को ओपनएआई या कोहिरे के द्वारा जो भी अतिरिक्त उत्पाद उपलब्ध कराया जाता था, उसका उपयोग करने में फंसे रहते थे। वॉयेज ने एम्बेडिंग को मुख्य घटना बनाने के लिए निकले।

विषय-विशेष एम्बेडिंग्स के रूप में एक रणनीति

वॉयेज के अलग होने के शुरुआती दिनों में उनकी विशिष्टता यह थी कि वे एक एकल एक-आकार-सभी-के-लिए एम्बेडिंग के बजाय विषय-विशेष मॉडल बनाने के लिए तैयार थे। जबकि प्रतियोगी एक सामान्य उद्देश्य वाला एम्बेडिंग एंडपॉइंट प्रकाशित करते थे और उसे काम करते थे, वॉयेज ने सॉफ्टवेयर रिपॉजिटरी के लिए वॉयेज-कोड, कानूनी दस्तावेजों के लिए वॉयेज-लॉ, वित्तीय डेटा के लिए वॉयेज-फाइनेंस और अंतर-भाषा खोज के लिए वॉयेज-मल्टीलैंग्वल जारी किया। प्रत्येक मॉडल को संकलित विषय विशेष कॉर्पस पर प्रशिक्षित किया गया था, और परिणाम दिखाते हैं: वॉयेज-कोड कोड खोज बेंचमार्क पर सामान्य एम्बेडिंग्स की तुलना में निरंतर बेहतर प्रदर्शन करता रहा, और वॉयेज-लॉ ने कानूनी भाषा के सेमेंटिक आकांक्षा को पकड़ लिया, जिसे आम रूप से मॉडल खराब कर देते थे। यह विषय विशेष विशेषज्ञता रणनीति अग्रिम रूप से सही निकली — उत्पादन आरएजी सिस्टम बनाने वाले डेवलपर्स जल्द ही खोज सटीकता के लिए एम्बेडिंग गुणवत्ता के महत्व को जान गए, और वे अपने विशिष्ट डेटा के लिए ट्यून किए गए मॉडल के लिए भुगतान करने के लिए तैयार थे।

एमटीईबी लीडरबोर्ड और तकनीकी विश्वसनीयता

वॉयेज के मॉडल ने हमेशा बड़े पैमाने पर टेक्स्ट एम्बेडिंग बेंचमार्क (एमटीईबी), जो एम्बेडिंग गुणवत्ता के लिए सबसे अधिक संदर्भित लीडरबोर्ड है, के शीर्ष पर या उसके निकट रहे हैं। उनके वॉयेज-3 और वॉयेज-3-लाइट मॉडल, जो 2024 के अंत में जारी किए गए थे, उत्पादन उपयोग के लिए आयाम और लेटेंसी के बीच एक संतुलन बनाए रखते हुए रिट्रीवल प्रदर्शन के अग्रणी बने रहे। कंपनी ने लंबे संदर्भ एम्बेडिंग्स में भी निवेश किया, जो प्रति इनपुट 32,000 टोकन समर्थन करते हैं — जो कानूनी दस्तावेज खोज या कोडबेस इंडेक्सिंग जैसे अनुप्रयोगों के लिए आवश्यक है, जहां अर्थ बरकरार रखने के लिए चूनकद बड़े होने चाहिए। उनके मूल्य निर्धारण मॉडल ओपनएआई के एम्बेडिंग एपीआई के मुकाबले बहुत अधिक कम थे, जो रिट्रीवल भारी अनुप्रयोग बनाने वाले स्टार्टअप्स और मध्यम आकार की कंपनियों के अपनाने में मदद करता था।

गूगल द्वारा अधिग्रहण और इसके सं

संबंधित अवधारणाएँ

← सभी शब्द
← वॉयस AI Wan-AI →
ESC