Tencent AI Lab lanzó Covo-Audio, un modelo de 7B parámetros que procesa audio end-to-end sin pasos de transcripción. Construido sobre Qwen2.5-7B-Base con codificación Whisper-large-v3, toma audio continuo a 50Hz, submuestrea a 6.25Hz a través de adaptadores especializados, y produce formas de onda de 24kHz vía Flow-Matching y BigVGAN. El modelo maneja 2T tokens durante entrenamiento y usa intercalado tri-modal jerárquico para alinear características acústicas, tokens de habla discretos y texto simultáneamente.
Esto importa porque la mayoría de "IA conversacional" todavía sigue el pipeline torpe de speech-to-text-to-speech que añade latencia y pierde matices. El procesamiento directo de audio podría finalmente entregar las interacciones de voz fluidas que nos han prometido. El enfoque "Intelligence-Speaker Decoupling" de Tencent es particularmente inteligente—separa el razonamiento de la síntesis de voz, permitiéndote personalizar speakers con datos TTS mínimos mientras preserva las habilidades conversacionales del modelo.
Sin fuentes adicionales, nos quedamos con las afirmaciones de Tencent sobre el rendimiento. La tasa de procesamiento de 6.25Hz suena agresiva para aplicaciones en tiempo real, y 7B parámetros podrían tener problemas con razonamiento complejo mientras manejan procesamiento de audio simultáneamente. El paper menciona robustez a ruido de fondo a través de Whisper, pero las condiciones de audio del mundo real serán la prueba definitiva.
Para desarrolladores, esto podría ser significativo si el pipeline de inferencia realmente cumple con el rendimiento en tiempo real. El lanzamiento open-source significa que puedes probarlo tú mismo en lugar de depender de llamadas API. Pero espera requerimientos computacionales sustanciales—7B parámetros más procesamiento de audio no corre en tu laptop. Vale la pena experimentar si estás construyendo aplicaciones de voz, pero mide la latencia cuidadosamente antes de comprometerte a producción.
