Cartesia 本周发布了两款模型,并都贴上了一个大胆的标签:用于文本转语音的 Sonic-3.5 和用于语音转文本的 Ink-2,被宣称为各自任务领域中排名第一的流式模型。Sonic-3.5 是头条主角,这款文本转语音模型被公司称为按人类偏好衡量最自然的流式 TTS,拥有82ms的首音延迟、全新的跨语言声音,并支持个人声音克隆。Ink-2 是较为低调的另一半,一款内置话轮检测的语音转文本模型,这一功能让系统能够知道说话者是否真正说完了话。
这一「第一」的说法值得加上一个注脚,而且是那种值得直说的注脚。Cartesia 自家公告所链接的 Artificial Analysis 文本转语音排行榜把 Sonic 3.5 综合排在第四位,Elo 为1205,落后于 Fun-Realtime-TTS、Gemini 3.1 Flash TTS 以及一款研究预览版模型。因此这顶桂冠只有在更狭窄的框定下才成立,即在某一特定维度上量产流式模型中最快或最好的那一个,而非独立榜单的榜首。当一次发布以一个所引用的计分板并不支持的最高级用语作为开场时,诚实的做法就是越过这个最高级用语去看。
越过它去看,这次发布依然确实值得关注,因为站得住脚的部分正是对语音智能体最重要的部分。82ms的首音延迟低到足以让回复在人察觉到停顿之前就开始,而语音转文本那一半中的话轮检测则能让智能体不会抢话,也不会陷入沉默的空档。合在一起,来自单一供应商的 TTS、STT 和话轮检测就是全双工语音循环的基本要素,也正是当前每一家构建电话智能体或实时助手的公司都在用零散部件拼凑的东西。
这才是这里真正的信号,而且它更多是一种采购信号,而非基准信号。语音智能体技术栈正在整合:与其把一家 TTS 供应商粘到另一家独立的 STT 供应商,再粘到独立的话轮检测启发式方法上,构建者可以从一处获得已经过协同调校的整条循环。Sonic-3.5 在任意一个排行榜上排第一还是第四,远不如这一来回是否感觉即时、模型是否知道何时停下来更重要。从这些角度看,延迟数字才是值得关注的那个,而排行榜名次则是要带着保留态度看待的那个。
