जिना एआई ने एम्बेडिंग और रिट्रीवल इन्फ्रास्ट्रक्चर बनाई है जिस पर हजारों RAG सिस्टम निर्भर करते हैं, यह साबित करता है कि फोकस्ड सर्च टूलिंग का उपयोग करना सब कुछ करने की तुलना में अधिक मूल्यवान हो सकता है। उनके लंबे-कंटेक्स्ट एम्बेडिंग मॉडल और रीडर API एआई-पावर्ड सर्च में दो सबसे कठिन व्यावहारिक समस्याओं को हल करते हैं — लंबे दस्तावेजों को विश्वसनीय रूप से प्रतिनिधित्व करना और गंदे वेब पृष्ठों से साफ टेक्स्ट निकालना — और वे इसे करते समय मुख्य मॉडलों को ओपन सोर्स रखते हुए किया। एक एकोसिस्टम जो सामान्य लैब्स द्वारा नियंत्रित है, जिना दिखाता है कि एक चीज को बहुत अच्छे तरीके से करना और विकासकर्ताओं के लिए इसका उपयोग करना बहुत सरल बनाना एक वास्तविक व्यवसाय हो सकता है।
जिना एआई की स्थापना 2020 में हैन शियो द्वारा की गई थी, जो टेंसरफ्लो टीम के पूर्व लीड थे टेंसेंट में और एक मशीन लर्निंग इंजीनियर जो पहले सैप रिसर्च में काम कर चुके थे। जर्मनी के बर्लिन में स्थित इस कंपनी ने एक उत्साहजनक ओपन-सोर्स प्रोजेक्ट के साथ शुरुआत की थी: एक न्यूरल सर्च फ्रेमवर्क जो विकासकर्ताओं को डीप लर्निंग के बजाय कीवर्ड मैचिंग के बजाय सर्च सिस्टम बनाने की अनुमति देता है। प्रारंभिक जिना फ्रेमवर्क तकनीकी रूप से आश्चर्यजनक था लेकिन जब कंपनी एम्बेडिंग मॉडल और विकासकर्ता एपीआई की ओर बदल गई तो इसका वास्तविक व्यावसायिक आधार बन गया। जिना ने 2021 में कैनान पार्टनर्स के नेतृत्व में 30 मिलियन डॉलर के सीरीज A फंड जुटाए और लंबे समय तक लैंगुएज मॉडल के युग में सर्च इंफ्रास्ट्रक्चर की आवश्यकताओं के संयोजन में व्यावहारिक बिंदुओं को खोजते रहे हैं।
जिना का ब्रेकआउट प्रोडक्ट उनके jina-embeddings मॉडल परिवार है। 2023 में जारी jina-embeddings-v2 मॉडल विश्वसनीय ओपन-सोर्स एम्बेडिंग मॉडल में से पहले थे जो 8,192-टोकन कंटेक्स्ट लंबाई के समर्थन के साथ आए थे, जो उस समय अधिकांश प्रतियोगियों द्वारा प्रदान की गई लंबाई के आठ गुना थे। यह रिट्रीवल-एग्जामिनेटेड जेनरेशन (RAG) सिस्टम के लिए बहुत महत्वपूर्ण था, जहां आपको छोटे टुकड़ों में विभाजित किए बिना लंबे दस्तावेजों को एम्बेड करने की आवश्यकता होती है और संदर्भ खो नहीं सकते हैं। v3 मॉडल इसे आगे बढ़ाते हुए मल्टी-टास्क ट्रेनिंग के साथ आए जिससे एक ही मॉडल अलग-अलग एम्बेडिंग सीनेंसियों को संभाल सकता है - रिट्रीवल, क्लासिफिकेशन, क्लस्टरिंग - अनुमान टाइम में एक टास्क पैरामीटर के समायोजन द्वारा। जिना ने अपने जिना-रिरेंकर आधारित रिरेंकिंग मॉडल (jina-reranker) और क्रॉस-एंकोडर मॉडल भी जारी किए जो पहले एम्बेडिंग सर्च के बाद एक दूसरे चरण के फिल्टर के रूप में उपयोग करते समय रिट्रीवल की गुणवत्ता में बहुत बेहतरीन सुधार करते हैं।
हो सकता है कि जिना का सबसे चतुर उत्पाद बदल रीडर एपीआई था, जो 2024 में लॉन्च किया गया था। यह किसी भी URL को लेता है और एक साफ, LLM-रेडी टेक्स्ट एक्सट्रैक्शन वापस करता है - कोई विज्ञापन, कोई नेविगेशन च्रोम, कोई कुकी बैनर, केवल सामग्री। RAG पाइपलाइन बनाने वाले विकासकर्ता या वेब पृष्ठों को पढ़ने वाले AI एजेंट्स तुरंत इसे पसंद कर गए क्योंकि वेब स्क्रैपिंग वह समस्या है जो सरल मामले में आसान है लेकिन पैमाने पर रात के भयानक है। रीडर एपीआई जावास्क्रिप्ट रेंडरिंग, पेवॉल्स (कानूनी रूप से संभव होने के अनुसार) और जटिल पृष्ठ बनावट के साथ निपटता है और संरचित मार्कडाउन वापस करता है जिसका भाषा मॉडल तुरंत उपयोग कर सकते हैं। अपने एम्बेडिंग एपीआई और रिरेंकर के साथ जिना किसी भी RAG सिस्टम के "रिट्रीवल" हिस्से के लिए एक संगत स्टैक प्रदान करता है, जो तब एक बुद्धिमान स्थान होता है जब हर AI एप्लिकेशन अपने आउटपुट को वास्तविक दस्तावेजों में आधारित करने की आवश्यकता होती है।