Supertonic v3 TTS on-device: 99M params, 31 idiomas, MIT + OpenRAIL-M, Zubnet AI Noticias

Supertone — una compañía de speech-AI — lanzó Supertonic v3, un modelo de text-to-speech on-device con soporte para 31 idiomas, etiquetas de expresión, y una huella de despliegue lo suficientemente pequeña para correr en un e-reader. La arquitectura es un autoencoder de habla más un módulo text-to-latent flow-matching más un predictor de duración, integrando Length-Aware Rotary Position Embedding (LARoPE) y una técnica de entrenamiento Self-Purifying Flow Matching. El conteo de parámetros es aproximadamente 99M (v2 era 66M), la huella de disco es 404 MB, y la inferencia se completa en 2 pasos flow-matching. La licencia MIT cubre el código; OpenRAIL-M cubre los pesos del modelo. El SDK Python se envía vía `pip install supertonic`, con los assets ONNX auto-descargados desde Hugging Face en la primera ejecución.

El objetivo hardware es el titular. Supertone reporta un Real-Time Factor de 0.3x en un e-reader Onyx Boox Go 6 — un dispositivo e-paper basado en Android con un SoC ARM y compute muy modesto relativo a un teléfono o laptop. RTF 0.3 significa que el modelo genera un segundo de audio en 300 ms en esa clase de hardware, lo cual es margen cómodo para reproducción streaming incluso con overhead significativo para tokenización y buffering. La lista de idiomas corre a través de familias indoeuropeas, asiáticas orientales y semíticas — inglés, coreano, japonés, árabe, búlgaro, checo, danés, alemán, griego, español, estonio, finlandés, francés, hindi, croata, húngaro, indonesio, italiano, lituano, letón, holandés, polaco, portugués, rumano, ruso, eslovaco, esloveno, sueco, turco, ucraniano, vietnamita — más un fallback "na" para idiomas desconocidos. Supertone reporta WER y CER competitivos con VoxCPM2, que es un modelo significativamente más grande.

Las etiquetas de expresión son simples y útiles: ``, ``, y `` pueden ser embedded inline en el texto de entrada y el modelo produce el cue prosódico sin un paso de preprocesamiento separado o una capa de modelo segunda. Ese es el detalle del lado de despliegue que importa más para los integradores de producto — embebir tres etiquetas en el pipeline de entrada es trivial comparado con correr un segundo modelo para expresividad, y las etiquetas son lo suficientemente explícitas como para controlarlas determinísticamente. La otra elección amigable del lado de despliegue es que v3 preserva el contrato de inferencia ONNX de v2, así que integraciones existentes hacen upgrade sin cambios de código. Esa decisión de continuidad es lo que permite a un producto desplegado rodar hacia adelante a v3 sin reescribir el pipeline de audio.

Para builders que envían cualquier cosa con voz en el edge — apps móviles, herramientas de accesibilidad, robótica, IoT, e-readers, infoentretenimiento de vehículo — Supertonic v3 está ahora en el set de candidatos junto a Kokoro, Piper, y la línea más grande de Coqui. Las dos preguntas que valen la pena correr en tus propios evals son si el WER en tu idioma objetivo coincide con la competitividad titular con VoxCPM2, y si el RTF en tu hardware objetivo específico (no Onyx Boox Go 6) te da el presupuesto de latencia para tu caso de uso. La licencia es lo suficientemente permisiva para uso comercial; el OpenRAIL-M en los pesos es la única restricción a leer cuidadosamente si estás construyendo un producto comercial. La portabilidad del runtime ONNX es la otra cosa a verificar — la mayoría de despliegues edge serán ARM CPU o NPU en lugar de GPU.

Supertonic v3 TTS on-device: 99M params, 31 idiomas, MIT + OpenRAIL-M

Más noticias