Supertone — une compagnie de speech-AI — a publié Supertonic v3, un modèle de text-to-speech sur appareil avec support de 31 langues, tags d'expression et empreinte de déploiement assez petite pour rouler sur un e-reader. L'architecture c'est un autoencodeur de parole plus un module text-to-latent à flow-matching plus un prédicteur de durée, intégrant Length-Aware Rotary Position Embedding (LARoPE) et une technique d'entraînement Self-Purifying Flow Matching. Le compte de paramètres est environ 99M (v2 était 66M), l'empreinte disque est 404 MB, et l'inférence se complète en 2 étapes flow-matching. La licence MIT couvre le code ; OpenRAIL-M couvre les poids du modèle. Le SDK Python ship via `pip install supertonic`, avec les assets ONNX auto-téléchargés depuis Hugging Face au premier run.
La cible hardware c'est la manchette. Supertone rapporte un Real-Time Factor de 0,3x sur un e-reader Onyx Boox Go 6 — un appareil e-paper basé Android avec un SoC ARM et un compute très modeste relatif à un téléphone ou laptop. RTF 0,3 veut dire que le modèle génère une seconde d'audio en 300 ms sur cette classe de hardware, ce qui est de la marge confortable pour de la lecture en streaming même avec un overhead significatif pour la tokenization et le buffering. La liste de langues roule à travers les familles indo-européennes, est-asiatiques et sémitiques — anglais, coréen, japonais, arabe, bulgare, tchèque, danois, allemand, grec, espagnol, estonien, finlandais, français, hindi, croate, hongrois, indonésien, italien, lituanien, letton, néerlandais, polonais, portugais, roumain, russe, slovaque, slovène, suédois, turc, ukrainien, vietnamien — plus un fallback « na » pour les langues inconnues. Supertone rapporte un WER et CER compétitifs avec VoxCPM2, qui est un modèle significativement plus gros.
Les tags d'expression sont simples et utiles : `
Pour les builders qui shippent n'importe quoi avec de la voix sur edge — apps mobile, outils d'accessibilité, robotique, IoT, e-readers, infodivertissement véhicule — Supertonic v3 est maintenant dans le set de candidats à côté de Kokoro, Piper et la ligne Coqui plus grosse. Les deux questions qui valent la peine de rouler sur tes propres evals c'est de savoir si le WER sur ta langue cible matche la compétitivité de manchette avec VoxCPM2, et si le RTF sur ton hardware cible spécifique (pas Onyx Boox Go 6) te donne le budget de latence pour ton use case. La licence est assez permissive pour l'usage commercial ; l'OpenRAIL-M sur les poids c'est la seule contrainte à lire attentivement si tu bâtis un produit commercial. La portabilité du runtime ONNX c'est l'autre chose à vérifier — la plupart des déploiements edge seront ARM CPU ou NPU plutôt que GPU.
