Tencent AI Lab lançou o Covo-Audio, um modelo de 7B parâmetros que processa áudio end-to-end sem etapas de transcrição. Construído sobre Qwen2.5-7B-Base com codificação Whisper-large-v3, ele recebe áudio contínuo a 50Hz, reduz a amostragem para 6,25Hz através de adaptadores especializados, e produz formas de onda de 24kHz via Flow-Matching e BigVGAN. O modelo lida com 2T tokens durante o treinamento e usa intercalação tri-modal hierárquica para alinhar características acústicas, tokens de fala discretos e texto simultaneamente.

Isso importa porque a maioria das "IA conversacionais" ainda segue o pipeline desajeitado de speech-to-text-to-speech que adiciona latência e perde nuances. Processamento direto de áudio poderia finalmente entregar as interações de voz fluidas que nos prometeram. A abordagem "Intelligence-Speaker Decoupling" da Tencent é particularmente esperta—ela separa o raciocínio da síntese de voz, permitindo personalizar speakers com dados TTS mínimos enquanto preserva as habilidades conversacionais do modelo.

Sem fontes adicionais, ficamos com as alegações da Tencent sobre performance. A taxa de processamento de 6,25Hz soa agressiva para aplicações em tempo real, e 7B parâmetros podem ter dificuldades com raciocínio complexo enquanto lidam com processamento de áudio simultaneamente. O paper menciona robustez a ruído de fundo através do Whisper, mas condições de áudio do mundo real serão o teste definitivo.

Para desenvolvedores, isso pode ser significativo se o pipeline de inferência realmente entregar performance em tempo real. O lançamento open-source significa que você pode testá-lo você mesmo ao invés de depender de chamadas API. Mas espere requisitos computacionais substanciais—7B parâmetros mais processamento de áudio não roda no seu laptop. Vale a pena experimentar se você está construindo aplicações de voz, mas meça a latência cuidadosamente antes de se comprometer com produção.