Mistral lanzó Voxtral-4B-TTS el 26 de marzo, afirmando que supera a ElevenLabs v2.5 Flash en evaluaciones humanas con puntajes de preferencia del 62.8%. El modelo de 4 mil millones de parámetros funciona en 3GB de VRAM, soporta 9 idiomas, y promete clonación de voz zero-shot desde muestras de audio de 3 segundos. Pero hay una trampa: Mistral eliminó los pesos del autoencoder de audio del lanzamiento abierto, lo que significa que los desarrolladores solo pueden usar las 20 voces predefinidas de Mistral, no clonar voces arbitrarias localmente.

Este es el comportamiento clásico de las empresas de IA — prometer código abierto, entregar algo castrado. El logro técnico es real: Voxtral usa una base LLM autoregresiva (Ministral 3B) que genera tokens de audio de 80ms, con una cabeza sofisticada que combina componentes semánticos y acústicos. La calidad parece legítima basada en pruebas independientes. Pero sin el encoder completo, "pesos abiertos" se convierte en jerga de marketing para "versión demo".

El ecosistema más amplio ya está sorteando las limitaciones de Mistral. Los creadores de cursos están construyendo entrenamientos alrededor de la clonación de voz solo-API a $0.016 por mil caracteres versus la suscripción de $22/mes de ElevenLabs. La licencia CC-BY-NC bloquea el auto-hospedaje comercial de todas formas, empujando a usuarios serios hacia la API pagada de Mistral sin importar. Algunos investigadores están investigando si las representaciones de audio pueden ser reconstruidas sin los pesos de encoder faltantes, aunque el éxito sigue incierto.

Para desarrolladores, esto representa el estado actual de la IA "abierta": capacidades impresionantes con limitaciones estratégicas que canalizan usuarios hacia servicios pagados. La calidad y eficiencia de Voxtral son destacables, especialmente para aplicaciones multilingües, pero la limitación de clonación de voz la hace menos atractiva de lo inicialmente prometido. A menos que estés bien con voces predefinidas o pagar tarifas de API, ElevenLabs sigue siendo la mejor opción para trabajo de voz personalizado.