腾讯开源70亿参数音频模型，真正实现实时语音处理

腾讯AI实验室发布了Covo-Audio，这是一个70亿参数的模型，可以端到端处理音频而无需转录步骤。基于Qwen2.5-7B-Base构建，使用Whisper-large-v3编码，它接收50Hz的连续音频，通过专门的适配器下采样到6.25Hz，并通过Flow-Matching和BigVGAN输出24kHz波形。该模型在训练期间处理2T tokens，使用分层三模态交错来同时对齐声学特征、离散语音tokens和文本。

这很重要，因为大多数"对话AI"仍然遵循笨拙的speech-to-text-to-speech管道，这增加了延迟并丢失了细节。直接音频处理最终可能提供我们一直被承诺的无缝语音交互。腾讯的"Intelligence-Speaker Decoupling"方法特别聪明——它将推理与语音合成分离，让你可以用最少的TTS数据定制说话人，同时保持模型的对话能力。

没有额外的信息源，我们只能依赖腾讯关于性能的声明。6.25Hz的处理速率对于实时应用来说听起来很激进，70亿参数在同时处理音频处理时可能难以应对复杂推理。论文提到通过Whisper实现背景噪声鲁棒性，但真实世界的音频条件将是最终测试。

对开发者来说，如果推理管道真的能实现实时性能，这可能很重要。开源发布意味着你可以自己测试，而不是依赖API调用。但要准备好大量的计算需求——70亿参数加上音频处理不会在你的笔记本电脑上运行。如果你在构建语音应用，值得试验，但在投入生产之前要仔细测量延迟。

腾讯开源70亿参数音频模型，真正实现实时语音处理

更多新闻