Sakana 發布了 KAME,一個 tandem 語音到語音架構,解決了跑語音代理的 builder 一直卡住的取捨:級聯管線(STT → LLM → TTS)首響應中位數延遲 2.1 秒但帶 LLM 完整知識深度,而像 Moshi 這種純端到端 S2S 跑 ~80ms 每 token 但失去深度。KAME 把兩者合起來 — Moshi 級 S2S 前端、非同步運行的串流 STT+LLM 後端,以及他們叫做「oracle 流」的第四訊號通道,把 LLM 預測在 S2S 已經在產生音訊的同時餵入。權重、paper、推論代碼在 Hugging Face 和 GitHub 公開。

機制是有意思的部分。Moshi 原始設計用三個流 — 輸入音訊、內部獨白文字、輸出音訊 — 在單一 transformer 中共同建模。KAME 加了第四個:由後端 LLM 在使用者 transcript 漸進完成時生成的 oracle token。後端不等說話完結;它在部分 transcript 上跑預測,隨著更多音訊到來精煉。這些 oracle token 流入 S2S 模型,後者在內部上下文和進入的 oracle 上條件化正在進行的音訊生成。結果:首 token 延遲保持在 Moshi 級 ~80ms,而響應內容攜帶後端 LLM 的知識深度。後端解耦到足以讓 S2S 在 LLM 還在思考時繼續生成環境聲學連續性 — paper 中「邊想邊說」的 framing。訓練:56,582 個合成對話從 MMLU-Pro、GSM8K、HSSBench 文字轉成音訊,eval 在 MT-Bench reasoning/STEM/humanities(coding、extraction、math 因不適合 speech 任務被排除)。

生態讀法是 Sakana 關閉了語音代理 stack 中一個真實 gap。級聯系統主導生產部署故事兩年,因為 LLM 知識深度是 value-add — 你為正確答案容忍 2s 延遲。像 Moshi(和 OpenAI 的 Realtime API 類)的端到端 S2S 用深度換自然度,在 customer-service 生產中保持小眾,因為打電話的人會注意到 agent 實際上不知道自己在說什麼。KAME 是第一個公開 ship 令人信服地打破這種取捨的架構,做到這點不需要從頭重訓任一組件 — Moshi 保留為前端,一個 LLM(推測是他們自己的,paper 指明 TinySwallow 級)管後端。對語音代理 builder,這意味著「你選延遲或知識」的假設從現在開始是錯的;架構模板存在、權重公開、eval set 可重現。

具體動作:如果你今天跑級聯語音代理,延遲是頭號投訴,KAME 的 tandem 模板值得一週原型 — 延遲優勢大到足以在單一 customer-service flow 上測。如果你跑純 S2S,你的 agent 被抓到不知道事情(Moshi 典型生產失敗模式),oracle 流模式可移植到其他前端,不只是 Sakana 的 checkpoint。要標的 eval 邊界:KAME 在 MT-Bench reasoning/STEM/humanities 上測過,沒在 coding、extraction、math 上 — 這些在訓練早期作為 speech 不相容失敗,你不該假設 KAME 的音訊輸出對程式碼聽寫或數值提取是良好成型的。對結構化輸出保真度比自然度更重要的領域,級聯管線仍然贏。