OmniVoice Studio bundla 6 engines TTS + servidor MCP, local-first, licença FSL

OmniVoice Studio shipou essa semana — um projeto single-developer (debpalash no GitHub) que bundla seis engines TTS atrás de uma interface local unificada, com servidor MCP built-in pra acesso programático. O pitch é direto: ElevenLabs cobra $5-$330/mês e roteia cada arquivo de áudio através dos servidores cloud deles; OmniVoice roda tudo localmente sem assinatura. Os engines bundled são OmniVoice (default), CosyVoice 3, MLX-Audio, VoxCPM2, MOSS-TTS-Nano e KittenTTS — note que esses são os engines mais novos/menos conhecidos em vez do lineup open-source famoso (Kokoro, F5-TTS, Bark, Coqui, ChatTTS), o que significa que a qualidade de voz subjacente vai variar engine-por-engine. O engine OmniVoice por padrão reivindica 646 línguas suportadas; a transcrição usa WhisperX pra 99 línguas.

A capacidade que vale flegar: voice cloning zero-shot a partir de tão pouco quanto 3 segundos de áudio de referência, via TTS baseado em diffusion condicionado no clip. Pra builders que tavam pagando ElevenLabs por APIs de voice-clone, essa é a conversão price-to-zero. O piso de hardware é 8GB RAM e 4GB VRAM com offload CPU automático; recomendado 16GB RAM e 8GB+ VRAM; modo CPU-only funciona mas roda ~3× mais devagar. Arquitetura: frontend React em localhost:5173, backend FastAPI na porta 8000, Server-Sent Events pra streaming updates, WebSocket pra ditado, mais o servidor MCP pra deixar agentes (Claude Code, Cursor, custom) chamarem TTS sem chave vendor separada. Repo: github.com/debpalash/OmniVoice-Studio.

A licença é o gotcha load-bearing e builders precisam ler antes de shipar. **FSL-1.1-ALv2** — Functional Source License, que permite uso pessoal, educacional e de pesquisa imediatamente mas restringe uso comercial até expirar um período de delay (tipicamente dois anos), depois do qual a licença auto-converte pra Apache 2.0. Isso significa que uma startup que constrói um produto em cima do OmniVoice Studio hoje tá tecnicamente fora de compliance com os termos de licença até 2028 a menos que negocie separadamente com o maintainer. Pra tooling interno numa empresa (uso não-comercial da ferramenta bundled), tudo bem. Pra shipar um produto que compete com ElevenLabs comercialmente, ainda não é usável. O padrão é o mesmo do movimento FSL da Sentry — open source pra comunidade, proteção comercial pro originator.

Segunda de manhã: se você constrói voice agents e tua conta atual de ElevenLabs tá doendo, OmniVoice Studio vale uma instalação local pra avaliar qualidade nos engines que te importam. O voice clone de 3 segundos é o demo pra rodar primeiro; o reivindicado de 646 línguas merece spot-check nas línguas que você realmente precisa. Plugá-lo num agente existente via o servidor MCP é uma mudança de uma config flag pra qualquer coisa que fale MCP. Desconhecidos honestos: esse é um projeto single-developer, sem deployments de produção citados, sem benchmarks de qualidade vs ElevenLabs publicados, o bundling de engines significa que a barra de qualidade varia por voice path, e a licença FSL bloqueia deployment comercial até expiração do delay. Pra pesquisa, tooling interno ou avaliação, é grátis e local. Pra shipar um produto, leia a licença primeiro — e observe se o projeto sobrevive à pergunta bus-factor que todos os releases solo-dev carregam.

OmniVoice Studio bundla 6 engines TTS + servidor MCP, local-first, licença FSL

Mais notícias