Inworld AI 今天發布 Realtime TTS-2,公司稱之為「閉環」的架構選擇:不是把每次 TTS 呼叫視為獨立的文字到音訊生成,模型把使用者先前的真實音訊與要說的文字一起作為輸入,把輸出語音的韻律、節奏和情感上下文適應到匹配它聽到的。上一代 TTS 1.5 在 2026 年 5 月的 Artificial Analysis Speech Arena 上排名 #1,高於 Google 和 ElevenLabs — 值得標註的可信度訊號,因為 Inworld 這裡的 framing 是「原始音訊品質是已解決的問題」,下一個前沿是對話響應性。WebSocket 上中位首音訊時間亞 200ms,100+ 種語言,語音身份在語句中切語言時保留,加上三種穩定性模式(Expressive、Balanced、Stable)構成規格表。API-only 研究預覽;無開放權重。
閉環機制比延遲或語言數量更重要。傳統 TTS 架構獨立處理每次生成 — 文字 in,音訊 out,對使用者在這次對話中實際怎麼發聲毫無意識。運行語音代理的 builder 不得不用單獨的分析管線在上面螺接韻律匹配,或者忍受語調與使用者不匹配的 TTS。Inworld 的方法把使用者音訊感知的適應折進模型本身:它感知使用者是低語、興奮、慢節奏、沮喪,並調整輸出以在同一對話中匹配。架構細節未揭露(AR?flow-matching?混合?),但輸入形狀是要緊的部分 — 接受原始使用者音訊作為條件是一個非平凡的設計選擇,把模型推向對話狀態追蹤而不是逐輪文字到語音。語音克隆按標準方式工作:5-15 秒參考片段透過兩步 API 生成可重用的語音 ID。跨語言 claim — 當同一 persona 在語句中從英語切換到西班牙語時語音身份保留 — 是一種以前難以可靠交付的能力,隨著語音代理瞄準多語言客戶群,變得越來越重要。
生態讀法與今天早些時候 Mistral 的 Voxtral 發布自然配對。Voxtral 是開源權重(CC BY-NC 4.0)、混合 AR + flow-matching、可在 builder 基礎設施上部署、600ms 級延遲。Inworld TTS-2 是 API-only、閉環對話適應、亞 200ms 延遲、無權重可下載。不同的 builder 會選擇這種權衡的不同方面:Voxtral 用於自架語音工作,你控制棧;Inworld 用於生產語音代理,對話適應功能完成 value-add 工作。兩種架構指向同一個演變中的前沿 — 語音代理正在從「TTS 說出話」邁向「TTS 參與對話」。Sakana KAME 的串聯 S2S 與 oracle-stream 架構是同一曲線上的第三點。18 個月前不存在的類別現在已經顯著地由架構上不同的競爭者填充。ElevenLabs 的旗艦 Multilingual v2 是這些都向上對比的閉源前沿基準。
實際動作:如果你 ship 語音特性,對話品質是使用者投訴(而不是原始音訊品質),Inworld TTS-2 值得在當前 TTS 提供商掙扎的對話上下文情況(情感弧線、重複處理、代理應該鏡像使用者能量的跟進)上做面對面 eval。亞 200ms TTFA 給互動用例真正的延遲預算。如果語音代理工作負載是一次性或短形式(通知、IVR、固定腳本),閉環優勢不會回本 — 沒有對話狀態的逐輪 TTS 就夠了。API-only 約束是交易摩擦:在本地或氣隙環境中運行的 builder 沒有通往 TTS-2 的路徑,Voxtral 的開放權重仍是該用例的答案。Inworld 與 Voxtral 的選擇真正是架構驅動的,不僅僅是授權 — 基於語音代理實際需要做什麼來選擇。
