Cartesia 本週發表了兩款模型,並為兩者都貼上了大膽的標籤:文字轉語音的 Sonic-3.5 與語音轉文字的 Ink-2,宣稱是各自任務中排名第一的串流模型。Sonic-3.5 是焦點所在,這款文字轉語音模型被該公司稱為依人類偏好最自然的串流 TTS,具備 82ms 的首段音訊延遲、新的跨語言聲音,並支援個人聲音複製。Ink-2 則是較低調的另一半,是一款內建輪次偵測的語音轉文字模型,這項功能讓系統得以判斷說話者是否真的已經講完。
第一名的說法應當加上但書,而且是值得直白說清楚的那一種。Cartesia 自家公告所連結的 Artificial Analysis 文字轉語音排行榜上,Sonic 3.5 整體排名第四,Elo 為 1205,落後於 Fun-Realtime-TTS、Gemini 3.1 Flash TTS 與一款研究預覽模型。因此這頂桂冠只在較狹義的框架內為真,即在特定維度上,於量產串流模型中最快或最佳,而非排行榜上獨立的榜首。當一場發表以引用的計分板並不支持的最高級詞彙開場時,誠實的做法就是越過這個最高級詞彙來看。
越過它之後,這次發表仍然確實值得關注,因為站得住腳的部分正是對語音代理重要的部分。82ms 的首段音訊延遲已經低到在人察覺到停頓之前回覆就已開始,而語音轉文字那一半的輪次偵測,則是讓代理不會搶話或陷入空白沉默的關鍵。整合起來,由單一供應商提供的 TTS、STT 與輪次偵測,正是全雙工語音迴路的基本元件,也是每一家打造電話代理或即時助理的公司目前正以零件拼湊出來的東西。
這才是這裡真正的訊號,而它更像是一個採購訊號,而非基準測試訊號。語音代理技術堆疊正在整併:開發者不必再把一家 TTS 供應商黏到另一家 STT 供應商、再黏到另一套輪次偵測啟發法上,而是能從同一處取得已調校為協同運作的整個迴路。Sonic-3.5 在任一排行榜上排第一還是第四,遠不如往返一趟是否感覺即時、模型是否懂得何時該停下來來得重要。就這些條件而言,延遲數字才是該關注的那個,而排行榜名次則是該保留三分的那個。
