Supertonic v3 设备端 TTS:99M 参数、31 种语言、MIT + OpenRAIL-M, Zubnet AI 新闻

Supertone——一家语音 AI 公司——发布了 Supertonic v3,一个支持 31 种语言、表达标签和部署占用空间足够小可在电子阅读器上运行的设备端文本转语音模型。架构是语音自编码器加上 flow-matching 文本到潜在模块加上时长预测器,集成了长度感知旋转位置嵌入(LARoPE)和自净化流匹配训练技术。参数数量大约 99M(v2 是 66M),磁盘占用为 404 MB,推理在 2 个 flow-matching 步骤内完成。MIT 许可证涵盖代码;OpenRAIL-M 涵盖模型权重。Python SDK 通过 `pip install supertonic` 发布,ONNX 资源在首次运行时从 Hugging Face 自动下载。

硬件目标是头条。Supertone 报告在 Onyx Boox Go 6 电子阅读器上实时因子为 0.3x——一种基于 Android 的电子纸设备,搭载 ARM SoC,相对于手机或笔记本电脑而言计算能力非常有限。RTF 0.3 意味着模型在该类硬件上以 300 毫秒生成一秒钟的音频,这为流式播放留出了舒适的余量,即使在 tokenization 和缓冲方面有显著开销。语言列表跨越印欧、东亚和闪含语系——英语、韩语、日语、阿拉伯语、保加利亚语、捷克语、丹麦语、德语、希腊语、西班牙语、爱沙尼亚语、芬兰语、法语、印地语、克罗地亚语、匈牙利语、印度尼西亚语、意大利语、立陶宛语、拉脱维亚语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、斯洛文尼亚语、瑞典语、土耳其语、乌克兰语、越南语——加上一个用于未知语言的「na」回退。Supertone 报告 WER 和 CER 与 VoxCPM2 具有竞争力,后者是一个明显更大的模型。

表达标签简单而有用:``、`` 和 `` 可以内联嵌入输入文本中,模型产生韵律提示,无需单独的预处理步骤或第二个模型层。这是部署侧最重要的细节,对于产品集成商来说——在输入管道中嵌入三个标签与运行第二个模型以获得表现力相比微不足道,而且标签足够明确,可以确定性地控制它们。另一个部署友好的选择是 v3 保留了 v2 的 ONNX 推理契约,因此现有集成无需代码更改即可升级。这种连续性决策让已部署的产品可以滚动升级到 v3,而无需重写音频管道。

对于在边缘发布任何具有语音的东西的构建者——移动应用、辅助工具、机器人、IoT、电子阅读器、车辆信息娱乐——Supertonic v3 现在与 Kokoro、Piper 和更大的 Coqui 线一起出现在候选集中。在你自己的评估中值得运行的两个问题是,目标语言上的 WER 是否与 VoxCPM2 的头条竞争力相匹配,以及你特定目标硬件(不是 Onyx Boox Go 6)上的 RTF 是否为你的用例提供了延迟预算。许可证对商业用途足够宽松;权重上的 OpenRAIL-M 是唯一要仔细阅读的限制,如果你在构建商业产品。ONNX 运行时可移植性是另一个要验证的事情——大多数边缘部署将是 ARM CPU 或 NPU 而不是 GPU。

Supertonic v3 设备端 TTS:99M 参数、31 种语言、MIT + OpenRAIL-M

更多新闻