Tencent AI Lab a publié Covo-Audio, un modèle de 7B paramètres qui traite l'audio de bout en bout sans étapes de transcription. Construit sur Qwen2.5-7B-Base avec l'encodage Whisper-large-v3, il prend l'audio continu à 50Hz, sous-échantillonne à 6,25Hz à travers des adaptateurs spécialisés, et produit des formes d'onde 24kHz via Flow-Matching et BigVGAN. Le modèle gère 2T tokens pendant l'entraînement et utilise l'entrelacement tri-modal hiérarchique pour aligner les caractéristiques acoustiques, les tokens de parole discrets et le texte simultanément.
C'est important parce que la plupart des "IA conversationnelles" suivent encore le pipeline maladroit speech-to-text-to-speech qui ajoute de la latence et fait perdre les nuances. Le traitement audio direct pourrait enfin offrir les interactions vocales fluides qu'on nous promet depuis longtemps. L'approche "Intelligence-Speaker Decoupling" de Tencent est particulièrement intelligente—elle sépare le raisonnement de la synthèse vocale, te permettant de personnaliser les speakers avec un minimum de données TTS tout en préservant les capacités conversationnelles du modèle.
Sans sources additionnelles, on se retrouve avec les affirmations de Tencent sur la performance. Le taux de traitement de 6,25Hz sonne agressif pour les applications temps réel, et 7B paramètres pourraient avoir de la difficulté avec le raisonnement complexe tout en gérant le traitement audio simultanément. Le papier mentionne la robustesse au bruit de fond grâce à Whisper, mais les conditions audio du monde réel seront le test ultime.
Pour les développeurs, ça pourrait être significatif si le pipeline d'inférence livre vraiment sur la performance temps réel. La publication open-source signifie que tu peux le tester toi-même plutôt que de dépendre des appels API. Mais attends-toi à des exigences de calcul substantielles—7B paramètres plus le traitement audio ne roule pas sur ton laptop. Ça vaut la peine d'expérimenter si tu construis des applications vocales, mais mesure la latence attentivement avant de t'engager en production.
