Zubnet AIसीखेंWiki › Cartesia
कंपनियाँ

Cartesia

इसे भी कहा जाता है: Sonic, SSM-आधारित वॉयस मॉडल
आवाज़ कृत्रिम बुद्धिमत्ता स्टार्टअप ट्रांसफॉर्मर्स के बजाय स्टेट स्पेस मॉडल (SSM) आर्किटेक्चर पर आधारित है। उनके सोनिक मॉडल अत्यधिक कम लैटेंसी वाला आवाज़ उत्पादन प्राप्त करते हैं, जो पहली बार वास्तविक समय चर्चा AI को वास्तव में प्राकृतिक लगने के लिए बनाते हैं।

यह क्यों मायने रखता है

कार्टेसिया महत्वपूर्ण है क्योंकि उन्होंने साबित कर दिया कि स्टेट स्पेस मॉडल केवल शोध के विषय नहीं हैं बल्कि रियल-टाइम वॉइस एआई के लिए वाणिज्यिक रूप से व्यवहार्य आर्किटेक्चर हैं। उनकी 100 मिलीसेकंड से कम लैटेंसी ने पहली बार वास्तव में प्राकृतिक संवादात्मक एआई के संभावना को संभव बना दिया, जो 'एक बॉट से बात करना' और 'एक व्यक्ति से बात करना' के बीच के अंतर को बंद करता है। जैसे ही उद्योग वॉइस-पहले एआई एजेंट्स की ओर बढ़ता है, कार्टेसिया की स्ट्रीमिंग गति में आर्किटेक्चरल फायदा उन्हें एक बुनियादी स्तर बना सकता है जिस पर सभी अन्य लोग बनाएंगे।

गहन अध्ययन

कार्टेसिया 2023 में स्टैनफोर्ड से एक रिसर्चर्स की टीम द्वारा स्थापित की गई थी, जिसमें करन गोएल, अल्बर्ट गु और अन्य शामिल थे, जो स्टेट स्पेस मॉडल्स (SSMs) के विकास में गहराई से शामिल रहे थे। अल्बर्ट गु को आमतौर पर S4 और Mamba आर्किटेक्चर के डिज़ाइनर के रूप में जाना जाता है — अनुक्रम मॉडलिंग के ब्रेकथ्रू जो दिखाते हैं कि ट्रांसफॉर्मर अनुक्रम डेटा पर गहरी अध्ययन के लिए एकमात्र विकल्प नहीं हैं। कार्टेसिया उस अनुसंधान से निकला था जिसके साथ एक विशिष्ट थीसिस था: SSMs ट्रांसफॉर्मर आधारित दृष्टिकोण की तुलना में मूल रूप से कम लैटेंसी और बेहतर स्ट्रीमिंग विशेषताओं के साथ वॉइस एआई देने में सक्षम हो सकते हैं, और उस लाभ के व्यावसायिकरण का समय अब आ गया है।

स्टेट स्पेस मॉडल बेट

कार्टेसिया के प्रयोग का तकनीकी हिस्सा अधिकांश वॉइस एआई कंपनियों से वास्तव में अलग है। जबकि प्रतियोगी जैसे एलेवेंटलैब्स और प्लेHT ट्रांसफॉर्मर आर्किटेक्चर (या ध्यान यंत्रों पर भारी निर्भरता वाले मिश्रित प्रणालियों) पर बने हुए हैं, कार्टेसिया के सोनिक मॉडल सीधे SSM आर्किटेक्चर पर बने हुए हैं। व्यावहारिक परिणाम महत्वपूर्ण है: SSMs लंबाई के संबंध में अनुक्रम को रैखिक समय में प्रोसेस करते हैं, जबकि मानक ध्यान के चौराहा पैमाने पर वृद्धि होती है। वॉइस जनरेशन के लिए विशेष रूप से, यह अर्थ है कि सोनिक 100 मिलीसेकंड के अंतर्गत एंड-टू-एंड लैटेंसी के साथ बोल उत्पन्न कर सकता है — जितना तेज होता है कि एक संवादात्मक एआई एप्लिकेशन में प्रतिक्रिया तत्काल लगती है बजाय "थोड़ा डिले" होने के। यह एक छोटी सुधार नहीं है; यह एक अंतर है जो एक वॉइस असिस्टेंट के बीच होता है जो एक फोन कॉल की तरह लगता है और एक जो मशीन से बात करने की तरह लगता है।

सोनिक और उत्पाद सूट

कार्टेसिया ने सोनिक को अपने लीड मॉडल के रूप में लॉन्च किया, और इसकी गति और गुणवत्ता के लिए तेजी से ध्यान आकर्षित किया। सोनिक कई भाषाओं का समर्थन करता है, छोटे नमूनों से वॉइस क्लोनिंग, और बोलने के शैली, गति और भाव के विस्तृत नियंत्रण। उनका API वास्तविक समय एप्लिकेशन के लिए डिज़ाइन किया गया है — वह प्रकार के स्ट्रीमिंग, बाइडिरेक्शनल वॉइस इंटरैक्शन जो एजेंट्स और वॉइस असिस्टेंट्स की आवश्यकता होती है। 2024 में, उन्होंने सोनिक 2 जारी किया, जिसमें प्राकृतिकता में सुधार और भाषा समर्थन के विस्तार के साथ अत्यधिक कम लैटेंसी के साथ बनाए रखा गया है। कंपनी अपने उपकरण पर तैनाती विकल्प भी प्रदान करती है, जो चिकित्सा, वित्त और सरकारी ग्राहकों के लिए महत्वपूर्ण है जो ऑडियो को तीसरे पक्ष के सर्वरों पर भेजने की अनुमति नहीं देते हैं।

फंडिंग और पोजिशनिंग

कार्टेसिया ने 2024 में एक सीरीज A में 27 मिलियन डॉलर जुटाए, जिसमें निवेशकों में लाइटस्पीड वेंचर पार्टनर्स और इंडेक्स वेंचर्स शामिल थे। एक कंपनी के लिए, जो उस समय दो साल से कम उम्र की थी, यह बाजार के विश्वास का प्रतिबिंब था दोनों SSM दृष्टिकोण और टीम के प्रोफाइल में। उनकी पोजिशनिंग विशिष्ट है: जबकि एलेवेंटलैब्स मुख्य रूप से वॉइस गुणवत्ता और विस्तार पर प्रतिस्पर्धा करता है, और डीपग्राम ट्रांसक्रिप्शन गति पर, कार्टेसिया "सबसे तेज वास्तविक समय वॉइस जन

संबंधित अवधारणाएँ

← सभी शब्द
← ByteDance विचार-शृंखला →
ESC