騰訊開源70億參數音頻模型，真正實現即時語音處理

騰訊AI實驗室發佈了Covo-Audio，這是一個70億參數的模型，可以端到端處理音頻而無需轉錄步驟。基於Qwen2.5-7B-Base構建，使用Whisper-large-v3編碼，它接收50Hz的連續音頻，透過專門的適配器下採樣到6.25Hz，並透過Flow-Matching和BigVGAN輸出24kHz波形。該模型在訓練期間處理2T tokens，使用階層三模態交錯來同時對齊聲學特徵、離散語音tokens和文字。

這很重要，因為大多數「對話AI」仍然遵循笨拙的speech-to-text-to-speech管線，這增加了延遲並丟失了細節。直接音頻處理最終可能提供我們一直被承諾的無縫語音互動。騰訊的「Intelligence-Speaker Decoupling」方法特別聰明——它將推理與語音合成分離，讓你可以用最少的TTS資料客製化說話人，同時保持模型的對話能力。

沒有額外的資訊來源，我們只能依賴騰訊關於效能的聲明。6.25Hz的處理速率對於即時應用來說聽起來很激進，70億參數在同時處理音頻處理時可能難以應對複雜推理。論文提到透過Whisper實現背景雜音穩健性，但真實世界的音頻條件將是最終測試。

對開發者來說，如果推理管線真的能實現即時效能，這可能很重要。開源發佈意味著你可以自己測試，而不是依賴API呼叫。但要準備好大量的運算需求——70億參數加上音頻處理不會在你的筆記型電腦上運行。如果你在構建語音應用，值得實驗，但在投入生產之前要仔細測量延遲。

騰訊開源70億參數音頻模型，真正實現即時語音處理

更多新聞