A Supertone — uma empresa de speech-AI — lançou Supertonic v3, um modelo de text-to-speech on-device com suporte a 31 idiomas, tags de expressão, e uma pegada de implantação pequena o suficiente para rodar em um e-reader. A arquitetura é um autoencoder de fala mais um módulo text-to-latent flow-matching mais um preditor de duração, integrando Length-Aware Rotary Position Embedding (LARoPE) e uma técnica de treinamento Self-Purifying Flow Matching. A contagem de parâmetros é aproximadamente 99M (v2 era 66M), a pegada de disco é 404 MB, e a inferência se completa em 2 passos flow-matching. A licença MIT cobre o código; OpenRAIL-M cobre os pesos do modelo. O SDK Python envia via `pip install supertonic`, com os assets ONNX auto-baixados do Hugging Face na primeira execução.

O alvo de hardware é a manchete. A Supertone reporta um Real-Time Factor de 0,3x em um e-reader Onyx Boox Go 6 — um dispositivo e-paper baseado em Android com um SoC ARM e compute muito modesto relativo a um telefone ou laptop. RTF 0,3 significa que o modelo gera um segundo de áudio em 300 ms nessa classe de hardware, o que é margem confortável para reprodução em streaming mesmo com overhead significativo para tokenização e buffering. A lista de idiomas roda através de famílias indo-europeias, asiáticas orientais e semíticas — inglês, coreano, japonês, árabe, búlgaro, tcheco, dinamarquês, alemão, grego, espanhol, estoniano, finlandês, francês, hindi, croata, húngaro, indonésio, italiano, lituano, letão, holandês, polonês, português, romeno, russo, eslovaco, esloveno, sueco, turco, ucraniano, vietnamita — mais um fallback "na" para idiomas desconhecidos. A Supertone reporta WER e CER competitivos com VoxCPM2, que é um modelo significativamente maior.

As tags de expressão são simples e úteis: ``, ``, e `` podem ser embedded inline no texto de entrada e o modelo produz o cue prosódico sem um passo de pré-processamento separado ou uma segunda camada de modelo. Esse é o detalhe do lado de implantação que importa mais para integradores de produto — embedar três tags no pipeline de entrada é trivial comparado a rodar um segundo modelo para expressividade, e as tags são explícitas o suficiente para controlá-las deterministicamente. A outra escolha amigável do lado de implantação é que v3 preserva o contrato de inferência ONNX de v2, então integrações existentes fazem upgrade sem mudanças de código. Essa decisão de continuidade é o que permite a um produto implantado rolar para frente para v3 sem reescrever o pipeline de áudio.

Para builders que enviam qualquer coisa com voz no edge — apps móveis, ferramentas de acessibilidade, robótica, IoT, e-readers, infotainment de veículo — Supertonic v3 está agora no conjunto de candidatos ao lado de Kokoro, Piper, e a linha maior da Coqui. As duas perguntas que valem rodar em seus próprios evals são se o WER em seu idioma-alvo combina com a competitividade de manchete com VoxCPM2, e se o RTF em seu hardware-alvo específico (não Onyx Boox Go 6) te dá o orçamento de latência para seu caso de uso. A licença é permissiva o suficiente para uso comercial; o OpenRAIL-M nos pesos é a única restrição a ler cuidadosamente se você está construindo um produto comercial. A portabilidade do runtime ONNX é a outra coisa a verificar — a maioria das implantações edge serão ARM CPU ou NPU em vez de GPU.