騰訊AI實驗室發佈了Covo-Audio,這是一個70億參數的模型,可以端到端處理音頻而無需轉錄步驟。基於Qwen2.5-7B-Base構建,使用Whisper-large-v3編碼,它接收50Hz的連續音頻,透過專門的適配器下採樣到6.25Hz,並透過Flow-Matching和BigVGAN輸出24kHz波形。該模型在訓練期間處理2T tokens,使用階層三模態交錯來同時對齊聲學特徵、離散語音tokens和文字。

這很重要,因為大多數「對話AI」仍然遵循笨拙的speech-to-text-to-speech管線,這增加了延遲並丟失了細節。直接音頻處理最終可能提供我們一直被承諾的無縫語音互動。騰訊的「Intelligence-Speaker Decoupling」方法特別聰明——它將推理與語音合成分離,讓你可以用最少的TTS資料客製化說話人,同時保持模型的對話能力。

沒有額外的資訊來源,我們只能依賴騰訊關於效能的聲明。6.25Hz的處理速率對於即時應用來說聽起來很激進,70億參數在同時處理音頻處理時可能難以應對複雜推理。論文提到透過Whisper實現背景雜音穩健性,但真實世界的音頻條件將是最終測試。

對開發者來說,如果推理管線真的能實現即時效能,這可能很重要。開源發佈意味著你可以自己測試,而不是依賴API呼叫。但要準備好大量的運算需求——70億參數加上音頻處理不會在你的筆記型電腦上運行。如果你在構建語音應用,值得實驗,但在投入生產之前要仔細測量延遲。