Mistral a lancé Voxtral-4B-TTS le 26 mars, affirmant qu'il bat ElevenLabs v2.5 Flash dans les évaluations humaines avec des scores de préférence de 62,8%. Le modèle de 4 milliards de paramètres fonctionne sur 3GB de VRAM, supporte 9 langues, et promet le clonage vocal zero-shot à partir d'échantillons audio de 3 secondes. Mais il y a un hic : Mistral a retiré les poids de l'autoencoder audio de la version ouverte, ce qui signifie que les développeurs ne peuvent utiliser que les 20 voix prédéfinies de Mistral, pas cloner des voix arbitraires localement.

C'est du comportement classique de compagnie d'IA — promettre l'open source, livrer quelque chose de castré. L'exploit technique est réel : Voxtral utilise une backbone LLM autoregressive (Ministral 3B) qui génère des tokens audio de 80ms, avec une tête sophistiquée combinant des composants sémantiques et acoustiques. La qualité semble légitime basée sur des tests indépendants. Mais sans l'encoder complet, « poids ouverts » devient du jargon marketing pour « version démo ».

L'écosystème plus large contourne déjà les limitations de Mistral. Les créateurs de cours développent des formations autour du clonage vocal API-only à 0,016$ par millier de caractères versus l'abonnement de 22$/mois d'ElevenLabs. La licence CC-BY-NC bloque l'auto-hébergement commercial de toute façon, poussant les utilisateurs sérieux vers l'API payante de Mistral peu importe. Certains chercheurs examinent si les représentations audio peuvent être reconstruites sans les poids d'encoder manquants, bien que le succès reste incertain.

Pour les développeurs, ceci représente l'état actuel de l'IA « ouverte » : capacités impressionnantes avec des limitations stratégiques qui dirigent les utilisateurs vers des services payants. La qualité et l'efficacité de Voxtral sont remarquables, surtout pour les applications multilingues, mais le handicap du clonage vocal le rend moins convaincant qu'initialement promis. À moins que vous soyez correct avec des voix prédéfinies ou payer des frais d'API, ElevenLabs reste le meilleur choix pour le travail vocal personnalisé.