OmniVoice Studio 本周发布——一个单开发者项目(GitHub 上的 debpalash),将六个 TTS 引擎打包在一个统一的本地优先界面后面,内置 MCP 服务器用于程序化访问。pitch 很直接:ElevenLabs 收费 5-330 美元/月,把每个音频文件都路由通过他们的云服务器;OmniVoice 完全本地运行,零订阅。打包的引擎是 OmniVoice(默认)、CosyVoice 3、MLX-Audio、VoxCPM2、MOSS-TTS-Nano 和 KittenTTS——注意这些是较新/较少为人知的引擎,而不是著名的开源阵容(Kokoro、F5-TTS、Bark、Coqui、ChatTTS),这意味着底层语音质量会因引擎而异。默认 OmniVoice 引擎声称支持 646 种语言;转录使用 WhisperX,99 种语言。
值得标记的能力:从短至 3 秒的参考音频零样本声音克隆,通过基于 diffusion 的 TTS 以该 clip 为条件。对于一直为 ElevenLabs 的 voice-clone API 付费的 builder 来说,这是 price-to-zero 的转换。硬件下限是 8GB RAM 和 4GB VRAM,带自动 CPU 卸载;推荐 16GB RAM 和 8GB+ VRAM;CPU-only 模式可用但慢约 3 倍。架构:localhost:5173 的 React 前端,端口 8000 的 FastAPI 后端,流式更新用 Server-Sent Events,听写用 WebSocket,加上 MCP 服务器让 agent(Claude Code、Cursor、自定义)无需单独的供应商 key 即可调用 TTS。仓库:github.com/debpalash/OmniVoice-Studio。
许可证是承重的 gotcha,builder 在 ship 之前必须读它。**FSL-1.1-ALv2**——Functional Source License,立即允许个人、教育和研究用途,但限制商业用途直到延迟期满(通常两年),之后许可证自动转换为 Apache 2.0。这意味着今天在 OmniVoice Studio 之上构建产品的初创公司,在 2028 年之前在技术上不符合许可证条款,除非他们单独与维护者协商。对公司内部工具(对打包工具的非商业使用),没问题。对于商业上与 ElevenLabs 竞争的产品发布,目前尚不可用。模式与 Sentry 的 FSL 举动相同——为社区开源,为发起者提供商业保护。
周一上午:如果你在构建 voice agent 而当前的 ElevenLabs 账单让你头疼,OmniVoice Studio 值得本地安装,对你关心的引擎评估质量。3 秒声音克隆是要先跑的演示;646 种语言的声称在你实际需要的语言上值得抽查。通过 MCP 服务器接入现有 agent,对任何讲 MCP 的东西都是一个 config flag 的变化。诚实的未知:这是单开发者项目,没有引用的生产部署,没有发布与 ElevenLabs 的质量基准对比,引擎打包意味着质量门槛因 voice path 而异,FSL 许可证阻止商业部署直到延迟期满。对于研究、内部工具或评估,免费且本地。对于 ship 产品,先读许可证——并观察该项目是否能在所有单开发者发布都承载的 bus-factor 问题下存活。
