Supertone — एक स्पीच-AI कंपनी — ने Supertonic v3 जारी किया, 31-भाषा समर्थन, एक्सप्रेशन टैग्स के साथ एक ऑन-डिवाइस टेक्स्ट-टू-स्पीच मॉडल, और एक तैनाती फ़ुटप्रिंट जो ई-रीडर पर चलने के लिए काफ़ी छोटा है। आर्किटेक्चर एक स्पीच ऑटोएन्कोडर प्लस एक flow-matching टेक्स्ट-टू-लेटेंट मॉड्यूल प्लस एक duration predictor है, जो Length-Aware Rotary Position Embedding (LARoPE) और एक Self-Purifying Flow Matching प्रशिक्षण तकनीक को एकीकृत करता है। पैरामीटर गिनती लगभग 99M है (v2 66M था), डिस्क फ़ुटप्रिंट 404 MB है, और इन्फेरेंस 2 flow-matching चरणों में पूरा होता है। MIT लाइसेंस कोड को कवर करता है; OpenRAIL-M मॉडल वज़न को कवर करता है। Python SDK `pip install supertonic` के माध्यम से शिप करता है, ONNX एसेट्स पहली बार चलने पर Hugging Face से ऑटो-डाउनलोड होते हैं।
हार्डवेयर लक्ष्य मुख्य शीर्षक है। Supertone Onyx Boox Go 6 ई-रीडर पर 0.3x का रियल-टाइम फ़ैक्टर रिपोर्ट करता है — एक Android-आधारित ई-पेपर डिवाइस जिसमें ARM SoC है और फ़ोन या लैपटॉप की तुलना में बहुत मामूली कंप्यूट है। RTF 0.3 का मतलब है कि मॉडल उस हार्डवेयर श्रेणी पर 300 ms में एक सेकंड का ऑडियो उत्पन्न करता है, जो टोकनाइज़ेशन और बफ़रिंग के लिए महत्वपूर्ण ओवरहेड के साथ भी स्ट्रीमिंग प्लेबैक के लिए आरामदायक हेडरूम है। भाषा सूची इंडो-यूरोपीय, पूर्व एशियाई और सेमिटिक परिवारों में चलती है — अंग्रेज़ी, कोरियाई, जापानी, अरबी, बल्गेरियाई, चेक, डेनिश, जर्मन, ग्रीक, स्पेनिश, एस्टोनियाई, फ़िनिश, फ़्रेंच, हिंदी, क्रोएशियाई, हंगेरियन, इंडोनेशियाई, इतालवी, लिथुआनियाई, लातवियाई, डच, पोलिश, पुर्तगाली, रोमानियाई, रूसी, स्लोवाक, स्लोवेनियाई, स्वीडिश, तुर्की, यूक्रेनी, वियतनामी — साथ ही अज्ञात भाषाओं के लिए एक "na" फ़ॉलबैक। Supertone VoxCPM2 के साथ प्रतिस्पर्धी WER और CER की रिपोर्ट करता है, जो एक काफ़ी बड़ा मॉडल है।
एक्सप्रेशन टैग सरल और उपयोगी हैं: `
बिल्डर्स के लिए जो एज पर आवाज़ के साथ कुछ भी शिप करते हैं — मोबाइल ऐप्स, accessibility उपकरण, रोबोटिक्स, IoT, ई-रीडर, वाहन infotainment — Supertonic v3 अब Kokoro, Piper और बड़े Coqui लाइन के साथ उम्मीदवार सेट में है। अपने स्वयं के evals पर चलाने योग्य दो प्रश्न हैं कि क्या आपके लक्ष्य भाषा पर WER VoxCPM2 के साथ हेडलाइन प्रतिस्पर्धात्मकता से मेल खाता है, और क्या आपके विशिष्ट लक्ष्य हार्डवेयर (Onyx Boox Go 6 नहीं) पर RTF आपके उपयोग केस के लिए विलंबता बजट देता है। लाइसेंस वाणिज्यिक उपयोग के लिए पर्याप्त उदार है; वज़न पर OpenRAIL-M ही एकमात्र बाधा है जिसे ध्यान से पढ़ना है यदि आप एक वाणिज्यिक उत्पाद बना रहे हैं। ONNX रनटाइम पोर्टेबिलिटी दूसरी चीज़ है जिसे सत्यापित करना है — अधिकांश एज तैनाती GPU के बजाय ARM CPU या NPU होंगी।
