Supertonic v3 裝置端 TTS:99M 參數、31 種語言、MIT + OpenRAIL-M, Zubnet AI 新聞

Supertone——一家語音 AI 公司——發布了 Supertonic v3,一個支援 31 種語言、表達標籤和部署佔用空間足夠小可在電子閱讀器上執行的裝置端文字轉語音模型。架構是語音自編碼器加上 flow-matching 文字到潛在模組加上時長預測器,整合了長度感知旋轉位置嵌入(LARoPE)和自淨化流匹配訓練技術。參數數量大約 99M(v2 是 66M),磁碟佔用為 404 MB,推理在 2 個 flow-matching 步驟內完成。MIT 授權涵蓋程式碼;OpenRAIL-M 涵蓋模型權重。Python SDK 透過 `pip install supertonic` 發布,ONNX 資源在首次執行時從 Hugging Face 自動下載。

硬體目標是頭條。Supertone 報告在 Onyx Boox Go 6 電子閱讀器上即時因子為 0.3x——一種基於 Android 的電子紙裝置,搭載 ARM SoC,相對於手機或筆記型電腦而言計算能力非常有限。RTF 0.3 意味著模型在該類硬體上以 300 毫秒生成一秒鐘的音訊,這為串流播放留出了舒適的餘量,即使在 tokenization 和緩衝方面有顯著開銷。語言列表跨越印歐、東亞和閃含語系——英語、韓語、日語、阿拉伯語、保加利亞語、捷克語、丹麥語、德語、希臘語、西班牙語、愛沙尼亞語、芬蘭語、法語、印地語、克羅埃西亞語、匈牙利語、印尼語、義大利語、立陶宛語、拉脫維亞語、荷蘭語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、斯洛伐克語、斯洛維尼亞語、瑞典語、土耳其語、烏克蘭語、越南語——加上一個用於未知語言的「na」回退。Supertone 報告 WER 和 CER 與 VoxCPM2 具有競爭力,後者是一個明顯更大的模型。

表達標籤簡單而有用:``、`` 和 `` 可以內聯嵌入輸入文字中,模型產生韻律提示,無需單獨的預處理步驟或第二個模型層。這是部署側最重要的細節,對於產品整合商來說——在輸入管線中嵌入三個標籤與執行第二個模型以獲得表現力相比微不足道,而且標籤足夠明確,可以確定性地控制它們。另一個部署友好的選擇是 v3 保留了 v2 的 ONNX 推理契約,因此現有整合無需程式碼更改即可升級。這種連續性決策讓已部署的產品可以滾動升級到 v3,而無需重寫音訊管線。

對於在邊緣發布任何具有語音的東西的建構者——行動應用、輔助工具、機器人、IoT、電子閱讀器、車輛資訊娛樂——Supertonic v3 現在與 Kokoro、Piper 和更大的 Coqui 線一起出現在候選集中。在你自己的評估中值得執行的兩個問題是,目標語言上的 WER 是否與 VoxCPM2 的頭條競爭力相匹配,以及你特定目標硬體(不是 Onyx Boox Go 6)上的 RTF 是否為你的用例提供了延遲預算。授權對商業用途足夠寬鬆;權重上的 OpenRAIL-M 是唯一要仔細閱讀的限制,如果你在建構商業產品。ONNX 執行時可移植性是另一個要驗證的事情——大多數邊緣部署將是 ARM CPU 或 NPU 而不是 GPU。

Supertonic v3 裝置端 TTS:99M 參數、31 種語言、MIT + OpenRAIL-M

更多新聞