Zubnet AIसीखेंWiki › Jina AI
कंपनियाँ

Jina AI

इसे भी कहा जाता है: एम्बेडिंग, Reader API, रीरैंकर
बर्लिन-आधारित एक AI कंपनी जो खोज और एम्बेडिंग में विशेषज्ञता रखती है। उनके jina-embeddings मॉडल और रीडर API (जो कोई भी URL को LLM-तैयार पाठ में परिवर्तित करता है) वैश्विक RAG पाइपलाइन के लिए आवश्यक बुनियादी ढांचा बन गए हैं।

यह क्यों मायने रखता है

जिना एआई ने एम्बेडिंग और रिट्रीवल इन्फ्रास्ट्रक्चर बनाई है जिस पर हजारों RAG सिस्टम निर्भर करते हैं, यह साबित करता है कि फोकस्ड सर्च टूलिंग का उपयोग करना सब कुछ करने की तुलना में अधिक मूल्यवान हो सकता है। उनके लंबे-कंटेक्स्ट एम्बेडिंग मॉडल और रीडर API एआई-पावर्ड सर्च में दो सबसे कठिन व्यावहारिक समस्याओं को हल करते हैं — लंबे दस्तावेजों को विश्वसनीय रूप से प्रतिनिधित्व करना और गंदे वेब पृष्ठों से साफ टेक्स्ट निकालना — और वे इसे करते समय मुख्य मॉडलों को ओपन सोर्स रखते हुए किया। एक एकोसिस्टम जो सामान्य लैब्स द्वारा नियंत्रित है, जिना दिखाता है कि एक चीज को बहुत अच्छे तरीके से करना और विकासकर्ताओं के लिए इसका उपयोग करना बहुत सरल बनाना एक वास्तविक व्यवसाय हो सकता है।

गहन अध्ययन

जिना एआई की स्थापना 2020 में हैन शियो द्वारा की गई थी, जो टेंसरफ्लो टीम के पूर्व लीड थे टेंसेंट में और एक मशीन लर्निंग इंजीनियर जो पहले सैप रिसर्च में काम कर चुके थे। जर्मनी के बर्लिन में स्थित इस कंपनी ने एक उत्साहजनक ओपन-सोर्स प्रोजेक्ट के साथ शुरुआत की थी: एक न्यूरल सर्च फ्रेमवर्क जो विकासकर्ताओं को डीप लर्निंग के बजाय कीवर्ड मैचिंग के बजाय सर्च सिस्टम बनाने की अनुमति देता है। प्रारंभिक जिना फ्रेमवर्क तकनीकी रूप से आश्चर्यजनक था लेकिन जब कंपनी एम्बेडिंग मॉडल और विकासकर्ता एपीआई की ओर बदल गई तो इसका वास्तविक व्यावसायिक आधार बन गया। जिना ने 2021 में कैनान पार्टनर्स के नेतृत्व में 30 मिलियन डॉलर के सीरीज A फंड जुटाए और लंबे समय तक लैंगुएज मॉडल के युग में सर्च इंफ्रास्ट्रक्चर की आवश्यकताओं के संयोजन में व्यावहारिक बिंदुओं को खोजते रहे हैं।

एम्बेडिंग के रूप में मुख्य व्यवसाय

जिना का ब्रेकआउट प्रोडक्ट उनके jina-embeddings मॉडल परिवार है। 2023 में जारी jina-embeddings-v2 मॉडल विश्वसनीय ओपन-सोर्स एम्बेडिंग मॉडल में से पहले थे जो 8,192-टोकन कंटेक्स्ट लंबाई के समर्थन के साथ आए थे, जो उस समय अधिकांश प्रतियोगियों द्वारा प्रदान की गई लंबाई के आठ गुना थे। यह रिट्रीवल-एग्जामिनेटेड जेनरेशन (RAG) सिस्टम के लिए बहुत महत्वपूर्ण था, जहां आपको छोटे टुकड़ों में विभाजित किए बिना लंबे दस्तावेजों को एम्बेड करने की आवश्यकता होती है और संदर्भ खो नहीं सकते हैं। v3 मॉडल इसे आगे बढ़ाते हुए मल्टी-टास्क ट्रेनिंग के साथ आए जिससे एक ही मॉडल अलग-अलग एम्बेडिंग सीनेंसियों को संभाल सकता है - रिट्रीवल, क्लासिफिकेशन, क्लस्टरिंग - अनुमान टाइम में एक टास्क पैरामीटर के समायोजन द्वारा। जिना ने अपने जिना-रिरेंकर आधारित रिरेंकिंग मॉडल (jina-reranker) और क्रॉस-एंकोडर मॉडल भी जारी किए जो पहले एम्बेडिंग सर्च के बाद एक दूसरे चरण के फिल्टर के रूप में उपयोग करते समय रिट्रीवल की गुणवत्ता में बहुत बेहतरीन सुधार करते हैं।

रीडर एपीआई और व्यावहारिक उपकरण

हो सकता है कि जिना का सबसे चतुर उत्पाद बदल रीडर एपीआई था, जो 2024 में लॉन्च किया गया था। यह किसी भी URL को लेता है और एक साफ, LLM-रेडी टेक्स्ट एक्सट्रैक्शन वापस करता है - कोई विज्ञापन, कोई नेविगेशन च्रोम, कोई कुकी बैनर, केवल सामग्री। RAG पाइपलाइन बनाने वाले विकासकर्ता या वेब पृष्ठों को पढ़ने वाले AI एजेंट्स तुरंत इसे पसंद कर गए क्योंकि वेब स्क्रैपिंग वह समस्या है जो सरल मामले में आसान है लेकिन पैमाने पर रात के भयानक है। रीडर एपीआई जावास्क्रिप्ट रेंडरिंग, पेवॉल्स (कानूनी रूप से संभव होने के अनुसार) और जटिल पृष्ठ बनावट के साथ निपटता है और संरचित मार्कडाउन वापस करता है जिसका भाषा मॉडल तुरंत उपयोग कर सकते हैं। अपने एम्बेडिंग एपीआई और रिरेंकर के साथ जिना किसी भी RAG सिस्टम के "रिट्रीवल" हिस्से के लिए एक संगत स्टैक प्रदान करता है, जो तब एक बुद्धिमान स्थान होता है जब हर AI एप्लिकेशन अपने आउटपुट को वास्तविक दस्तावेजों में आधारित करने की आवश्यकता होती है।

ओपन सोर्स और व्यावसायिक संतु

संबंधित अवधारणाएँ

← सभी शब्द
ESC