Twelve Labs: परिभाषा और अर्थ — AI विकी

एक वीडियो समझ वाली कंपनी जो आपको प्राकृतिक भाषा का उपयोग करके वीडियो से सामग्री खोजने, विश्लेषण करने और उत्पादित करने की अनुमति देती है। इसे "वीडियो के लिए RAG" के रूप में सोचें — उनके मॉडल ऐसे ही काम करते हैं जैसे LLMs टेक्स्ट को समझते हैं।

यह क्यों मायने रखता है

Twelve Labs विश्व के वीडियो सामग्री को मशीन द्वारा पढ़े जा सके वाला बनाने के लिए आधारभूत बुनियादी ढांचा बना रहा है। एक ऐसे युग में जहां वीडियो डिजिटल संचार में प्रमुख है लेकिन AI द्वारा खोज योग्य नहीं है, उनके उद्देश्य बनाए गए एम्बेडिंग और जेनरेशन मॉडल एक समस्या को हल करते हैं जिसे भले ही सबसे बड़े फ्रंटियर लैब्स ने केवल सतह पर हल किया हो। यदि वीडियो इंटरनेट का प्रमुख माध्यम है, तो वही जो उत्पादन पैमाने पर वीडियो समझ को हल करता है, एक रणनीतिक स्थिति रखता है जो गूगल सर्च के लिए पाठ के लिए तुलनीय है।

गहन अध्ययन

Twelve Labs की स्थापना 2021 में Jae Lee और Aiden Lee ने की थी, जिन्होंने AI परिदृश्य में एक विशाल gap देखा: जबकि text-आधारित मॉडल breakneck गति से आगे बढ़ रहे थे, वीडियो हठपूर्वक मशीनों के लिए opaque बना रहा। आप एक LLM से एक दस्तावेज़ का सारांश सेकंडों में देने के लिए कह सकते थे, लेकिन उससे यह पूछना कि एक दो घंटे के वीडियो के मिनट 14:32 पर क्या हुआ? असंभव। संस्थापक टीम, computer vision शोध में जड़ों और Google तथा Samsung जैसी कंपनियों में अनुभव के साथ, ने पहचाना कि वीडियो समझ के लिए image recognition को एक timeline पर bolting करने से मौलिक रूप से अलग दृष्टिकोण की आवश्यकता थी। वे multimodal foundation मॉडल बनाने के लिए निकले जो वीडियो को natively समझते हैं — visual scenes, audio, speech, और on-screen text को बाद में एक साथ stitched अलग channels के बजाय एक एकीकृत stream के रूप में मानते हुए।

Pegasus और Marengo: Product stack

Twelve Labs के core उत्पाद Pegasus और Marengo हैं, हर एक वीडियो intelligence समस्या के एक अलग हिस्से से निपटता है। Marengo उनका वीडियो embedding मॉडल है — यह वीडियो सामग्री को समृद्ध vector representations में बदलता है जो विशाल वीडियो libraries में semantic search को सक्षम करते हैं। आप हज़ारों घंटे की footage में "एक लाल जैकेट में व्यक्ति एक दरवाज़ा खोल रहा है" query कर सकते हैं और सटीक timestamp-स्तर परिणाम प्राप्त कर सकते हैं, भले ही किसी ने उस क्षण को कभी tag या caption नहीं किया हो। Pegasus उनका video-to-text generation मॉडल है, वीडियो सामग्री के बारे में सारांश, वर्णन, और प्रश्नों के उत्तर देने में सक्षम एक विशिष्टता के साथ जिसे generic vision-language मॉडल मेल नहीं कर सकते। एक साथ, ये मॉडल एक API को शक्ति देते हैं जो developers को media asset management, अनुपालन निगरानी, सामग्री moderation, और educational वीडियो search जैसे applications बनाने देता है बिना अपने स्वयं के वीडियो ML pipeline को शुरुआत से बनाने की आवश्यकता के।

Funding और बाज़ार स्थिति

कंपनी ने 2024 में NEA और NVentures (NVIDIA की venture शाखा) के नेतृत्व में $50 मिलियन Series A जुटाई, Index Ventures और मौजूदा निवेशकों की भागीदारी के साथ। इसने उनकी कुल funding को $70 मिलियन से अधिक ला दिया। NVIDIA निवेश विशेष रूप से महत्वपूर्ण था — इसने signal दिया कि GPU निर्माता ने वीडियो समझ को एक विशिष्ट, उच्च-मूल्य बाज़ार खंड के रूप में देखा जो दाँव लगाने के लायक है, न कि केवल एक feature जो अंततः OpenAI या Google से सामान्य-उद्देश्य multimodal मॉडलों में अवशोषित हो जाएगा। Twelve Labs खुद को बुनियादी ढाँचे के रूप में स्थापित करने के बारे में जानबूझकर रहा है, end-user application नहीं। उनका API-first दृष्टिकोण का अर्थ है कि वे अपने ग्राहकों के साथ प्रतिस्पर्धा नहीं करते; वे plumbing हैं जो media और entertainment से लेकर security और healthcare तक उद्योगों में video-native AI applications को संभव बनाते हैं।

वीडियो समझ का gap

कारण कि Twelve Labs के पास well-funded generalist labs द्वारा हावी बाज़ार में मौजूद रहने के लिए जगह है यह है कि वीडियो वास्तव में कठिन है। 30 frames प्रति सेकंड पर वीडियो का एक एकल घंटा 108,000 छवियाँ रखता है, साथ ही audio, speech, text overlays, और उन सभी के बीच temporal संबंध। GPT-4o और Gemini जैसे सामान्य-उद्देश्य multimodal मॉडल छोटे वीडियो clips प्रोसेस कर सकते हैं, लेकिन वे उस पैमाने, परिशुद्धता, और गति के साथ संघर्ष करते हैं जो production वीडियो applications माँगते हैं। Twelve Labs का purpose-built आर्किटेक्चर बिल्कुल इस समस्या के लिए डिज़ाइन किया गया है: विशाल वीडियो libraries की तेज़ indexing, सैकड़ों हज़ारों घंटों में sub-second search, और generation कार्य जिनके लिए यह समझने की आवश्यकता है कि समय के साथ क्या हुआ, न कि केवल एक एकल frame में। जैसे-जैसे वीडियो internet traffic और enterprise डेटा पर हावी होना जारी रखता है — Cisco अनुमान लगाता है कि वीडियो सभी IP traffic का 82% प्रतिनिधित्व करेगा — वे कंपनियाँ जो उस सामग्री को searchable और actionable बना सकती हैं वे AI stack का एक uniquely मूल्यवान टुकड़ा रखेंगी।

Twelve Labs

यह क्यों मायने रखता है

गहन अध्ययन

Pegasus और Marengo: Product stack

Funding और बाज़ार स्थिति

वीडियो समझ का gap

संबंधित अवधारणाएँ