Supertone — एक स्पीच-AI कंपनी — ने Supertonic v3 जारी किया, 31-भाषा समर्थन, एक्सप्रेशन टैग्स के साथ एक ऑन-डिवाइस टेक्स्ट-टू-स्पीच मॉडल, और एक तैनाती फ़ुटप्रिंट जो ई-रीडर पर चलने के लिए काफ़ी छोटा है। आर्किटेक्चर एक स्पीच ऑटोएन्कोडर प्लस एक flow-matching टेक्स्ट-टू-लेटेंट मॉड्यूल प्लस एक duration predictor है, जो Length-Aware Rotary Position Embedding (LARoPE) और एक Self-Purifying Flow Matching प्रशिक्षण तकनीक को एकीकृत करता है। पैरामीटर गिनती लगभग 99M है (v2 66M था), डिस्क फ़ुटप्रिंट 404 MB है, और इन्फेरेंस 2 flow-matching चरणों में पूरा होता है। MIT लाइसेंस कोड को कवर करता है; OpenRAIL-M मॉडल वज़न को कवर करता है। Python SDK `pip install supertonic` के माध्यम से शिप करता है, ONNX एसेट्स पहली बार चलने पर Hugging Face से ऑटो-डाउनलोड होते हैं।

हार्डवेयर लक्ष्य मुख्य शीर्षक है। Supertone Onyx Boox Go 6 ई-रीडर पर 0.3x का रियल-टाइम फ़ैक्टर रिपोर्ट करता है — एक Android-आधारित ई-पेपर डिवाइस जिसमें ARM SoC है और फ़ोन या लैपटॉप की तुलना में बहुत मामूली कंप्यूट है। RTF 0.3 का मतलब है कि मॉडल उस हार्डवेयर श्रेणी पर 300 ms में एक सेकंड का ऑडियो उत्पन्न करता है, जो टोकनाइज़ेशन और बफ़रिंग के लिए महत्वपूर्ण ओवरहेड के साथ भी स्ट्रीमिंग प्लेबैक के लिए आरामदायक हेडरूम है। भाषा सूची इंडो-यूरोपीय, पूर्व एशियाई और सेमिटिक परिवारों में चलती है — अंग्रेज़ी, कोरियाई, जापानी, अरबी, बल्गेरियाई, चेक, डेनिश, जर्मन, ग्रीक, स्पेनिश, एस्टोनियाई, फ़िनिश, फ़्रेंच, हिंदी, क्रोएशियाई, हंगेरियन, इंडोनेशियाई, इतालवी, लिथुआनियाई, लातवियाई, डच, पोलिश, पुर्तगाली, रोमानियाई, रूसी, स्लोवाक, स्लोवेनियाई, स्वीडिश, तुर्की, यूक्रेनी, वियतनामी — साथ ही अज्ञात भाषाओं के लिए एक "na" फ़ॉलबैक। Supertone VoxCPM2 के साथ प्रतिस्पर्धी WER और CER की रिपोर्ट करता है, जो एक काफ़ी बड़ा मॉडल है।

एक्सप्रेशन टैग सरल और उपयोगी हैं: ``, `` और `` को इनपुट टेक्स्ट में इनलाइन एम्बेड किया जा सकता है और मॉडल बिना अलग प्रीप्रोसेसिंग चरण या एक्सप्रेसिवनेस के लिए दूसरे मॉडल लेयर के prosodic cue उत्पन्न करता है। यह तैनाती-पक्ष का विवरण है जो उत्पाद integrators के लिए सबसे अधिक मायने रखता है — इनपुट पाइपलाइन में तीन टैग एम्बेड करना expressiveness के लिए दूसरा मॉडल चलाने की तुलना में तुच्छ है, और टैग deterministically उन्हें नियंत्रित करने के लिए पर्याप्त स्पष्ट हैं। दूसरी तैनाती-अनुकूल पसंद यह है कि v3 v2 ONNX इन्फेरेंस अनुबंध को सुरक्षित रखता है, इसलिए मौजूदा एकीकरण कोड परिवर्तनों के बिना अपग्रेड होते हैं। वह निरंतरता निर्णय वह है जो एक तैनात उत्पाद को ऑडियो पाइपलाइन को फिर से लिखे बिना v3 तक आगे रोल करने देता है।

बिल्डर्स के लिए जो एज पर आवाज़ के साथ कुछ भी शिप करते हैं — मोबाइल ऐप्स, accessibility उपकरण, रोबोटिक्स, IoT, ई-रीडर, वाहन infotainment — Supertonic v3 अब Kokoro, Piper और बड़े Coqui लाइन के साथ उम्मीदवार सेट में है। अपने स्वयं के evals पर चलाने योग्य दो प्रश्न हैं कि क्या आपके लक्ष्य भाषा पर WER VoxCPM2 के साथ हेडलाइन प्रतिस्पर्धात्मकता से मेल खाता है, और क्या आपके विशिष्ट लक्ष्य हार्डवेयर (Onyx Boox Go 6 नहीं) पर RTF आपके उपयोग केस के लिए विलंबता बजट देता है। लाइसेंस वाणिज्यिक उपयोग के लिए पर्याप्त उदार है; वज़न पर OpenRAIL-M ही एकमात्र बाधा है जिसे ध्यान से पढ़ना है यदि आप एक वाणिज्यिक उत्पाद बना रहे हैं। ONNX रनटाइम पोर्टेबिलिटी दूसरी चीज़ है जिसे सत्यापित करना है — अधिकांश एज तैनाती GPU के बजाय ARM CPU या NPU होंगी।