वॉयेज एआई 2023 में स्टैनफोर्ड कंप्यूटर साइंस सर्कल्स से उभरा, जिसकी स्थापना टेंग्यू मा द्वारा की गई थी, जो एक सहायक प्रोफेसर हैं, जिनके मशीन लर्निंग सिद्धांत में अपनी अनुसंधान के कारण एम्बेडिंग मॉडल क्या बन सकते हैं, इस पर असाधारण रूप से विस्तृत दृष्टिकोण था। व्यापक एलईएम गोल्ड रश का पीछा करने के बजाय, मा और उनकी टीम ने एक गणना की बेट: एआई में वास्तविक बुनियादी बाधा उत्पादन नहीं था — यह खोज थी। हर आरएजी पाइपलाइन, हर सेमेंटिक सर्च सिस्टम, हर रिकॉमेंडेशन इंजन अपने एम्बेडिंग की गुणवत्ता पर जीवित या मृत होता है, और अधिकांश डेवलपर्स खुद को ओपनएआई या कोहिरे के द्वारा जो भी अतिरिक्त उत्पाद उपलब्ध कराया जाता था, उसका उपयोग करने में फंसे रहते थे। वॉयेज ने एम्बेडिंग को मुख्य घटना बनाने के लिए निकले।
वॉयेज के अलग होने के शुरुआती दिनों में उनकी विशिष्टता यह थी कि वे एक एकल एक-आकार-सभी-के-लिए एम्बेडिंग के बजाय विषय-विशेष मॉडल बनाने के लिए तैयार थे। जबकि प्रतियोगी एक सामान्य उद्देश्य वाला एम्बेडिंग एंडपॉइंट प्रकाशित करते थे और उसे काम करते थे, वॉयेज ने सॉफ्टवेयर रिपॉजिटरी के लिए वॉयेज-कोड, कानूनी दस्तावेजों के लिए वॉयेज-लॉ, वित्तीय डेटा के लिए वॉयेज-फाइनेंस और अंतर-भाषा खोज के लिए वॉयेज-मल्टीलैंग्वल जारी किया। प्रत्येक मॉडल को संकलित विषय विशेष कॉर्पस पर प्रशिक्षित किया गया था, और परिणाम दिखाते हैं: वॉयेज-कोड कोड खोज बेंचमार्क पर सामान्य एम्बेडिंग्स की तुलना में निरंतर बेहतर प्रदर्शन करता रहा, और वॉयेज-लॉ ने कानूनी भाषा के सेमेंटिक आकांक्षा को पकड़ लिया, जिसे आम रूप से मॉडल खराब कर देते थे। यह विषय विशेष विशेषज्ञता रणनीति अग्रिम रूप से सही निकली — उत्पादन आरएजी सिस्टम बनाने वाले डेवलपर्स जल्द ही खोज सटीकता के लिए एम्बेडिंग गुणवत्ता के महत्व को जान गए, और वे अपने विशिष्ट डेटा के लिए ट्यून किए गए मॉडल के लिए भुगतान करने के लिए तैयार थे।
वॉयेज के मॉडल ने हमेशा बड़े पैमाने पर टेक्स्ट एम्बेडिंग बेंचमार्क (एमटीईबी), जो एम्बेडिंग गुणवत्ता के लिए सबसे अधिक संदर्भित लीडरबोर्ड है, के शीर्ष पर या उसके निकट रहे हैं। उनके वॉयेज-3 और वॉयेज-3-लाइट मॉडल, जो 2024 के अंत में जारी किए गए थे, उत्पादन उपयोग के लिए आयाम और लेटेंसी के बीच एक संतुलन बनाए रखते हुए रिट्रीवल प्रदर्शन के अग्रणी बने रहे। कंपनी ने लंबे संदर्भ एम्बेडिंग्स में भी निवेश किया, जो प्रति इनपुट 32,000 टोकन समर्थन करते हैं — जो कानूनी दस्तावेज खोज या कोडबेस इंडेक्सिंग जैसे अनुप्रयोगों के लिए आवश्यक है, जहां अर्थ बरकरार रखने के लिए चूनकद बड़े होने चाहिए। उनके मूल्य निर्धारण मॉडल ओपनएआई के एम्बेडिंग एपीआई के मुकाबले बहुत अधिक कम थे, जो रिट्रीवल भारी अनुप्रयोग बनाने वाले स्टार्टअप्स और मध्यम आकार की कंपनियों के अपनाने में मदद करता था।