OmniVoice Studio bundle 6 moteurs TTS + serveur MCP, local-first, licence FSL

OmniVoice Studio a shippé cette semaine — un projet single-developer (debpalash sur GitHub) qui bundle six moteurs TTS derrière une interface locale unifiée, avec un serveur MCP built-in pour accès programmatique. Le pitch est direct : ElevenLabs charge $5-$330/mois et route chaque fichier audio à travers leur cloud ; OmniVoice roule tout localement sans abonnement. Les moteurs bundled sont OmniVoice (default), CosyVoice 3, MLX-Audio, VoxCPM2, MOSS-TTS-Nano et KittenTTS — note que ce sont les moteurs plus récents/moins connus plutôt que la lineup open-source famous (Kokoro, F5-TTS, Bark, Coqui, ChatTTS), ce qui veut dire que la qualité voice sous-jacente va varier engine-par-engine. Le moteur OmniVoice par défaut claim 646 langues supportées ; la transcription utilise WhisperX pour 99 langues.

La capability qui vaut d'être flagged : voice cloning zero-shot à partir d'aussi peu que 3 secondes d'audio de référence, via un TTS basé diffusion conditionné sur le clip. Pour les builders qui payaient ElevenLabs pour des APIs voice-clone, c'est la conversion price-to-zero. Le plancher hardware c'est 8GB RAM et 4GB VRAM avec offload CPU automatique ; recommandé 16GB RAM et 8GB+ VRAM ; le mode CPU-only marche mais roule ~3× plus lentement. Architecture : frontend React à localhost:5173, backend FastAPI au port 8000, Server-Sent Events pour streaming updates, WebSocket pour dictation, plus le serveur MCP pour laisser les agents (Claude Code, Cursor, custom) appeler TTS sans clé vendor séparée. Repo : github.com/debpalash/OmniVoice-Studio.

La licence est le gotcha load-bearing et les builders doivent la lire avant de shipper. **FSL-1.1-ALv2** — Functional Source License, qui permet usage personnel, éducatif et research immédiatement mais restreint l'usage commercial jusqu'à expiration d'un délai (typiquement deux ans), après quoi la licence auto-convertit à Apache 2.0. Ça veut dire qu'une startup qui bâtit un produit sur OmniVoice Studio aujourd'hui est techniquement hors compliance avec les termes de licence jusqu'à 2028 sauf si elle négocie séparément avec le maintainer. Pour du tooling interne dans une compagnie (usage non-commercial de l'outil bundled), c'est fine. Pour shipper un produit qui compete avec ElevenLabs commercialement, c'est pas encore utilisable. Le pattern c'est le même que le move FSL de Sentry — open source pour la communauté, protection commerciale pour l'originator.

Lundi matin : si tu builds des voice agents et que ta bill ElevenLabs courante fait mal, OmniVoice Studio vaut une install locale pour évaluer la qualité sur les moteurs qui te concernent. Le voice clone 3-secondes c'est le demo à rouler en premier ; le claim 646-langues mérite un spot-check sur les langues dont t'as réellement besoin. Le hooker dans un agent existant via le serveur MCP c'est un changement d'une config-flag pour n'importe quoi qui parle MCP. Unknowns honnêtes : c'est un projet single-developer, pas de déploiements production cités, pas de benchmarks qualité vs ElevenLabs publiés, le bundling de moteurs veut dire que le bar de qualité varie par voice path, et la licence FSL bloque le deployment commercial jusqu'à expiration du délai. Pour research, internal tooling, ou évaluation, c'est free et local. Pour shipper un produit, lis la licence en premier — et watch si le projet survit la question bus-factor que tous les releases solo-dev portent.

OmniVoice Studio bundle 6 moteurs TTS + serveur MCP, local-first, licence FSL

Plus de nouvelles