Supertonic v3 TTS sur appareil : 99M params, 31 langues, MIT + OpenRAIL-M, Zubnet AI Nouvelles

Supertone — une compagnie de speech-AI — a publié Supertonic v3, un modèle de text-to-speech sur appareil avec support de 31 langues, tags d'expression et empreinte de déploiement assez petite pour rouler sur un e-reader. L'architecture c'est un autoencodeur de parole plus un module text-to-latent à flow-matching plus un prédicteur de durée, intégrant Length-Aware Rotary Position Embedding (LARoPE) et une technique d'entraînement Self-Purifying Flow Matching. Le compte de paramètres est environ 99M (v2 était 66M), l'empreinte disque est 404 MB, et l'inférence se complète en 2 étapes flow-matching. La licence MIT couvre le code ; OpenRAIL-M couvre les poids du modèle. Le SDK Python ship via `pip install supertonic`, avec les assets ONNX auto-téléchargés depuis Hugging Face au premier run.

La cible hardware c'est la manchette. Supertone rapporte un Real-Time Factor de 0,3x sur un e-reader Onyx Boox Go 6 — un appareil e-paper basé Android avec un SoC ARM et un compute très modeste relatif à un téléphone ou laptop. RTF 0,3 veut dire que le modèle génère une seconde d'audio en 300 ms sur cette classe de hardware, ce qui est de la marge confortable pour de la lecture en streaming même avec un overhead significatif pour la tokenization et le buffering. La liste de langues roule à travers les familles indo-européennes, est-asiatiques et sémitiques — anglais, coréen, japonais, arabe, bulgare, tchèque, danois, allemand, grec, espagnol, estonien, finlandais, français, hindi, croate, hongrois, indonésien, italien, lituanien, letton, néerlandais, polonais, portugais, roumain, russe, slovaque, slovène, suédois, turc, ukrainien, vietnamien — plus un fallback « na » pour les langues inconnues. Supertone rapporte un WER et CER compétitifs avec VoxCPM2, qui est un modèle significativement plus gros.

Les tags d'expression sont simples et utiles : ``, `` et `` peuvent être embedded inline dans le texte d'entrée et le modèle produit le cue prosodique sans étape de preprocessing séparée ni couche de modèle deuxième. C'est le détail côté déploiement qui compte le plus pour les intégrateurs produit — embedder trois tags dans le pipeline d'entrée c'est trivial comparé à rouler un deuxième modèle pour l'expressivité, et les tags sont assez explicites pour les contrôler déterministiquement. L'autre choix friendly côté déploiement c'est que v3 préserve le contrat d'inférence ONNX v2, donc les intégrations existantes upgradent sans changements de code. Cette décision de continuité c'est ce qui laisse un produit déployé roller en avant vers v3 sans réécrire le pipeline audio.

Pour les builders qui shippent n'importe quoi avec de la voix sur edge — apps mobile, outils d'accessibilité, robotique, IoT, e-readers, infodivertissement véhicule — Supertonic v3 est maintenant dans le set de candidats à côté de Kokoro, Piper et la ligne Coqui plus grosse. Les deux questions qui valent la peine de rouler sur tes propres evals c'est de savoir si le WER sur ta langue cible matche la compétitivité de manchette avec VoxCPM2, et si le RTF sur ton hardware cible spécifique (pas Onyx Boox Go 6) te donne le budget de latence pour ton use case. La licence est assez permissive pour l'usage commercial ; l'OpenRAIL-M sur les poids c'est la seule contrainte à lire attentivement si tu bâtis un produit commercial. La portabilité du runtime ONNX c'est l'autre chose à vérifier — la plupart des déploiements edge seront ARM CPU ou NPU plutôt que GPU.

Supertonic v3 TTS sur appareil : 99M params, 31 langues, MIT + OpenRAIL-M

Plus de nouvelles