腾讯AI实验室发布了Covo-Audio,这是一个70亿参数的模型,可以端到端处理音频而无需转录步骤。基于Qwen2.5-7B-Base构建,使用Whisper-large-v3编码,它接收50Hz的连续音频,通过专门的适配器下采样到6.25Hz,并通过Flow-Matching和BigVGAN输出24kHz波形。该模型在训练期间处理2T tokens,使用分层三模态交错来同时对齐声学特征、离散语音tokens和文本。

这很重要,因为大多数"对话AI"仍然遵循笨拙的speech-to-text-to-speech管道,这增加了延迟并丢失了细节。直接音频处理最终可能提供我们一直被承诺的无缝语音交互。腾讯的"Intelligence-Speaker Decoupling"方法特别聪明——它将推理与语音合成分离,让你可以用最少的TTS数据定制说话人,同时保持模型的对话能力。

没有额外的信息源,我们只能依赖腾讯关于性能的声明。6.25Hz的处理速率对于实时应用来说听起来很激进,70亿参数在同时处理音频处理时可能难以应对复杂推理。论文提到通过Whisper实现背景噪声鲁棒性,但真实世界的音频条件将是最终测试。

对开发者来说,如果推理管道真的能实现实时性能,这可能很重要。开源发布意味着你可以自己测试,而不是依赖API调用。但要准备好大量的计算需求——70亿参数加上音频处理不会在你的笔记本电脑上运行。如果你在构建语音应用,值得试验,但在投入生产之前要仔细测量延迟。