Inworld AI 今天发布 Realtime TTS-2,公司称之为「闭环」的架构选择:不是把每次 TTS 调用视为独立的文本到音频生成,模型把用户先前的真实音频与要说的文本一起作为输入,把输出语音的韵律、节奏和情感上下文适应到匹配它听到的。上一代 TTS 1.5 在 2026 年 5 月的 Artificial Analysis Speech Arena 上排名 #1,高于 Google 和 ElevenLabs — 值得标注的可信度信号,因为 Inworld 这里的 framing 是「原始音频质量是已解决的问题」,下一个前沿是会话响应性。WebSocket 上中位首音频时间亚 200ms,100+ 种语言,语音身份在语句中切语言时保留,加上三种稳定性模式(Expressive、Balanced、Stable)构成规格表。API-only 研究预览;无开放权重。

闭环机制比延迟或语言数量更重要。传统 TTS 架构独立处理每次生成 — 文本 in,音频 out,对用户在这次对话中实际怎么发声毫无意识。运行语音代理的 builder 不得不用单独的分析管线在上面螺接韵律匹配,或者忍受语调与用户不匹配的 TTS。Inworld 的方法把用户音频感知的适应折进模型本身:它感知用户是低语、兴奋、慢节奏、沮丧,并调整输出以在同一对话中匹配。架构细节未披露(AR?flow-matching?混合?),但输入形状是要紧的部分 — 接受原始用户音频作为条件是一个非平凡的设计选择,把模型推向会话状态跟踪而不是逐轮文本到语音。语音克隆按标准方式工作:5-15 秒参考片段通过两步 API 生成可重用的语音 ID。跨语言 claim — 当同一 persona 在语句中从英语切换到西班牙语时语音身份保留 — 是一种以前难以可靠交付的能力,随着语音代理瞄准多语言客户群,变得越来越重要。

生态读法与今天早些时候 Mistral 的 Voxtral 发布自然配对。Voxtral 是开源权重(CC BY-NC 4.0)、混合 AR + flow-matching、可在 builder 基础设施上部署、600ms 级延迟。Inworld TTS-2 是 API-only、闭环会话适应、亚 200ms 延迟、无权重可下载。不同的 builder 会选择这种权衡的不同方面:Voxtral 用于自托管语音工作,你控制栈;Inworld 用于生产语音代理,会话适应功能完成 value-add 工作。两种架构指向同一个演变中的前沿 — 语音代理正在从「TTS 说出话」迈向「TTS 参与对话」。Sakana KAME 的串联 S2S 与 oracle-stream 架构是同一曲线上的第三点。18 个月前不存在的类别现在已经显著地由架构上不同的竞争者填充。ElevenLabs 的旗舰 Multilingual v2 是这些都向上对比的闭源前沿基准。

实际动作:如果你 ship 语音特性,会话质量是用户投诉(而不是原始音频质量),Inworld TTS-2 值得在当前 TTS 提供商挣扎的会话上下文情况(情感弧线、重复处理、代理应该镜像用户能量的跟进)上做面对面 eval。亚 200ms TTFA 给互动用例真正的延迟预算。如果语音代理工作负载是一次性或短形式(通知、IVR、固定脚本),闭环优势不会回本 — 没有会话状态的逐轮 TTS 就够了。API-only 约束是交易摩擦:在本地或气隙环境中运行的 builder 没有通往 TTS-2 的路径,Voxtral 的开放权重仍是该用例的答案。Inworld 与 Voxtral 的选择真正是架构驱动的,不仅仅是许可 — 基于语音代理实际需要做什么来选择。