OmniVoice Studio shippeó esta semana — un proyecto single-developer (debpalash en GitHub) que bundlea seis motores TTS detrás de una interfaz local unificada, con servidor MCP built-in para acceso programático. El pitch es directo: ElevenLabs cobra $5-$330/mes y rutea cada archivo de audio a través de sus cloud servers; OmniVoice corre todo localmente sin suscripción. Los motores bundled son OmniVoice (default), CosyVoice 3, MLX-Audio, VoxCPM2, MOSS-TTS-Nano y KittenTTS — nota que estos son los motores más nuevos/menos conocidos en lugar del lineup open-source famoso (Kokoro, F5-TTS, Bark, Coqui, ChatTTS), lo que significa que la calidad de voz subyacente va a variar motor-por-motor. El motor OmniVoice por defecto reclama 646 idiomas soportados; la transcripción usa WhisperX para 99 idiomas.
La capacidad que vale flaggear: voice cloning zero-shot desde tan poco como 3 segundos de audio de referencia, vía TTS basado en difusión condicionado al clip. Para builders que estaban pagando ElevenLabs por APIs de voice-clone, esa es la conversión price-to-zero. El piso de hardware es 8GB RAM y 4GB VRAM con offload CPU automático; recomendado 16GB RAM y 8GB+ VRAM; el modo CPU-only funciona pero corre ~3× más lento. Arquitectura: frontend React en localhost:5173, backend FastAPI en puerto 8000, Server-Sent Events para streaming updates, WebSocket para dictado, más el servidor MCP para dejar a los agentes (Claude Code, Cursor, custom) llamar TTS sin una clave vendor separada. Repo: github.com/debpalash/OmniVoice-Studio.
La licencia es el gotcha load-bearing y los builders necesitan leerla antes de shippear. **FSL-1.1-ALv2** — Functional Source License, que permite uso personal, educacional y de investigación inmediatamente pero restringe uso comercial hasta que expire un período de delay (típicamente dos años), después de lo cual la licencia auto-convierte a Apache 2.0. Esto significa que una startup que construye un producto sobre OmniVoice Studio hoy está técnicamente fuera de compliance con los términos de licencia hasta 2028 a menos que negocien separadamente con el maintainer. Para tooling interno en una empresa (uso no-comercial de la herramienta bundled), está bien. Para shippear un producto que compite con ElevenLabs comercialmente, no es todavía usable. El patrón es el mismo que el movimiento FSL de Sentry — open source para la comunidad, protección comercial para el originator.
Lunes por la mañana: si construyes voice agents y tu factura actual de ElevenLabs duele, OmniVoice Studio vale una instalación local para evaluar calidad en los motores que te importan. El voice clone de 3 segundos es el demo a correr primero; el reclamo de 646 idiomas merece un spot-check en los idiomas que realmente necesitas. Engancharlo en un agente existente vía el servidor MCP es un cambio de un config flag para cualquier cosa que hable MCP. Desconocidos honestos: este es un proyecto single-developer, sin deployments de producción citados, sin benchmarks de calidad vs ElevenLabs publicados, el bundling de motores significa que la barra de calidad varía por voice path, y la licencia FSL bloquea deployment comercial hasta expiración del delay. Para investigación, tooling interno, o evaluación, es free y local. Para shippear un producto, lee la licencia primero — y observa si el proyecto sobrevive a la pregunta bus-factor que cargan todos los releases solo-dev.
