एसेंबलीएआई ने विकासकर्ताओं के लिए स्पीच-टू-टेक्स्ट वास्तव में उपलब्ध कराया है, जो पहले एक विशेषज्ञ ML टीम की आवश्यकता रखता था, अब एक एपीआई कॉल में संपीड़ित हो गया है। उनका ऑडियो इंटेलिजेंस स्टैक — जो ट्रांसक्रिप्शन, स्पीकर पहचान, भाव, और LLM-पावर्ड समरीज़ेशन को जोड़ता है — एक ऐसे पैमाने पर काम कर रहा है जो दो साल पहले भी व्यावहारिक नहीं था, जहां कच्चे ऑडियो को संरचित और कार्यशील डेटा में परिवर्तित किया जा रहा है। एक ऐसे दुनिया में जहां आवाज़ AI एजेंट्स के लिए डिफ़ॉल्ट इंटरफ़ेस बन रही है, एसेंबलीएआई उस समझ की परत बना रहा है जिस पर सब कुछ निर्भर करता है।
एसेम्बलीएआई की स्थापना 2017 में डिलन फॉक्स द्वारा की गई थी, जो अपने बचपन से आवाज के पहचान संबंधी समस्याओं पर काम कर रहे थे। सैन फ्रांसिस्को आधारित कंपनी के शुरुआती अंदाजा सीधा था: विकासकर्ताओं को एक ट्रांसक्रिप्शन API की आवश्यकता थी जो वास्तव में अच्छा काम करता था और आसानी से एकीकृत किया जा सकता था। उस समय, विकल्प या तो नूएंस और आईबीएम से महंगे उद्यमी समाधान थे, या गूगल के क्लाउड स्पीच-टू-टेक्स्ट — जो शक्तिशाली था लेकिन गूगल क्लाउड के विस्तृत परिसर में छिपा हुआ था। फॉक्स ने एक उद्देश्य-निर्मित आवाज AI प्लेटफॉर्म के लिए एक खुलासा देखा जिसे विकासकर्ता कुछ मिनटों में चला सकते थे, न कि हफ्तों में।
एसेम्बलीएआई के ब्रेकथ्रू उनके यूनिवर्सल मॉडल्स के साथ आया। बजाय अलग-अलग अक्षर, डोमेन या ऑडियो स्थितियों के लिए विशेष रूप से तैयार मॉडल्स के एक मेनू के, उन्होंने दर्जनों भाषाओं और ध्वनि पर्यावरणों में लेबल किए गए ऑडियो के लाखों घंटों पर एक एकल फाउंडेशन मॉडल को ट्रेन किया। यूनिवर्सल-1 2023 में लॉन्च किया गया था और तुरंत ओपनएआई के व्हिस्पर के साथ प्रतिस्पर्धा करने लगा। यूनिवर्सल-2, जो 2023 के अंत में जारी किया गया था, आगे बढ़ गया — ज्यादातर अंग्रेजी बेंचमार्क पर व्हिस्पर लार्ज-व3 के शब्द त्रुटि दर के तुलना में कम त्रुटि दर प्राप्त करते हुए, जबकि बहुत तेज़ चलता है। मुख्य तकनीकी अंतर के रूप में कॉन्फोर्मर आर्किटेक्चर (जो आवाज में प्रभावी रहा है वह एक संयोजन है कन्वोलूशन और सेल्फ-एटेंशन) के साथ आक्रामक डेटा संकलन और पैमाने पर ट्रेनिंग को जोड़ना था।
एसेम्बलीएआई के वास्तव में अंतर यह है कि वे जिसे ऑडियो इंटेलिजेंस कहते हैं — एक मॉडल के सूट जो ट्रांसक्रिप्शन के ऊपर बैठता है और ऑडियो से संरचित जानकारी निकालता है। स्पीकर डायरेक्शन यह बताता है कि कौन क्या कह रहा है। भावनात्मक विश्लेषण प्रति उत्तर के भावनात्मक टोन का पता लगाता है। विषय पहचान, सामग्री प्रबंधन, PII डिलीट करें, और ऑटो-चैप्टर्स क्रूर ट्रांसक्रिप्शन को उपयोगी डेटा में बदल देते हैं। कॉल सेंटर विश्लेषण, पॉडकास्ट उपकरणों या बैठक सहायक बनाने वाले विकासकर्ताओं के लिए, यह एक API कॉल एक अन्य अनुभाग के बजाय पांच या छह अलग-अलग सेवाओं को जोड़ने की आवश्यकता को बदल देता है। उनके 2023 में लॉन्च किए गए लेमर फ्रेमवर्क ने आगे बढ़कर ट्रांसक्रिप्शन को सीधे LLM में पाइप करके सारांशीकरण, प्रश्न उत्तर और कार्य बिंदु निकालने के लिए बरता — वास्तव में आवाज AI और जनरेटिव AI स्टैक के बीच एक पुल बनाता है।
एसेम्बलीएआई ने 115 मिलियन डॉलर से अधिक जुटाए हैं, जिसमें 2023 में 50 मिलियन डॉलर की सी-सीरीज शामिल