OmniVoice Studio 本週發布——一個單開發者專案(GitHub 上的 debpalash),將六個 TTS 引擎打包在一個統一的本地優先介面後面,內建 MCP 伺服器用於程式化存取。pitch 很直接:ElevenLabs 收費 5-330 美元/月,把每個音訊檔案都路由透過他們的雲端伺服器;OmniVoice 完全本地執行,零訂閱。打包的引擎是 OmniVoice(預設)、CosyVoice 3、MLX-Audio、VoxCPM2、MOSS-TTS-Nano 和 KittenTTS——注意這些是較新/較少為人知的引擎,而不是著名的開源陣容(Kokoro、F5-TTS、Bark、Coqui、ChatTTS),這意味著底層語音品質會因引擎而異。預設 OmniVoice 引擎聲稱支援 646 種語言;轉錄使用 WhisperX,99 種語言。

值得標記的能力:從短至 3 秒的參考音訊零樣本聲音複製,透過基於 diffusion 的 TTS 以該 clip 為條件。對於一直為 ElevenLabs 的 voice-clone API 付費的 builder 來說,這是 price-to-zero 的轉換。硬體下限是 8GB RAM 和 4GB VRAM,帶自動 CPU 卸載;推薦 16GB RAM 和 8GB+ VRAM;CPU-only 模式可用但慢約 3 倍。架構:localhost:5173 的 React 前端,連接埠 8000 的 FastAPI 後端,串流更新用 Server-Sent Events,聽寫用 WebSocket,加上 MCP 伺服器讓 agent(Claude Code、Cursor、自訂)無需單獨的供應商 key 即可呼叫 TTS。Repo:github.com/debpalash/OmniVoice-Studio。

授權是承重的 gotcha,builder 在 ship 之前必須讀它。**FSL-1.1-ALv2**——Functional Source License,立即允許個人、教育和研究用途,但限制商業用途直到延遲期滿(通常兩年),之後授權自動轉換為 Apache 2.0。這意味著今天在 OmniVoice Studio 之上建構產品的新創公司,在 2028 年之前在技術上不符合授權條款,除非他們單獨與維護者協商。對公司內部工具(對打包工具的非商業使用),沒問題。對於商業上與 ElevenLabs 競爭的產品發布,目前尚不可用。模式與 Sentry 的 FSL 舉動相同——為社群開源,為發起者提供商業保護。

週一早上:如果你在建構 voice agent 而當前的 ElevenLabs 帳單讓你頭疼,OmniVoice Studio 值得本地安裝,對你關心的引擎評估品質。3 秒聲音複製是要先跑的演示;646 種語言的聲稱在你實際需要的語言上值得抽查。透過 MCP 伺服器接入現有 agent,對任何講 MCP 的東西都是一個 config flag 的變化。誠實的未知:這是單開發者專案,沒有引用的生產部署,沒有發布與 ElevenLabs 的品質基準對比,引擎打包意味著品質門檻因 voice path 而異,FSL 授權阻止商業部署直到延遲期滿。對於研究、內部工具或評估,免費且本地。對於 ship 產品,先讀授權——並觀察該專案是否能在所有單開發者發布都承載的 bus-factor 問題下存活。