Sakana 发布了 KAME,一个 tandem 语音到语音架构,解决了跑语音代理的 builder 一直卡住的取舍:级联管线(STT → LLM → TTS)首响应中位数延迟 2.1 秒但带 LLM 完整知识深度,而像 Moshi 这种纯端到端 S2S 跑 ~80ms 每 token 但失去深度。KAME 把两者合起来 — Moshi 级 S2S 前端、异步运行的流式 STT+LLM 后端,以及他们叫做「oracle 流」的第四信号通道,把 LLM 预测在 S2S 已经在产生音频的同时喂入。权重、paper、推理代码在 Hugging Face 和 GitHub 公开。
机制是有意思的部分。Moshi 原始设计用三个流 — 输入音频、内部独白文本、输出音频 — 在单一 transformer 中共同建模。KAME 加了第四个:由后端 LLM 在用户 transcript 渐进完成时生成的 oracle token。后端不等说话完结;它在部分 transcript 上跑预测,随着更多音频到来精炼。这些 oracle token 流入 S2S 模型,后者在内部上下文和进入的 oracle 上条件化正在进行的音频生成。结果:首 token 延迟保持在 Moshi 级 ~80ms,而响应内容携带后端 LLM 的知识深度。后端解耦到足以让 S2S 在 LLM 还在思考时继续生成环境声学连续性 — paper 中「边想边说」的 framing。训练:56,582 个合成对话从 MMLU-Pro、GSM8K、HSSBench 文本转成音频,eval 在 MT-Bench reasoning/STEM/humanities(coding、extraction、math 因不适合 speech 任务被排除)。
生态读法是 Sakana 关闭了语音代理 stack 中一个真实 gap。级联系统主导生产部署故事两年,因为 LLM 知识深度是 value-add — 你为正确答案容忍 2s 延迟。像 Moshi(和 OpenAI 的 Realtime API 类)的端到端 S2S 用深度换自然度,在 customer-service 生产中保持小众,因为打电话的人会注意到 agent 实际上不知道自己在说什么。KAME 是第一个公开 ship 令人信服地打破这种取舍的架构,做到这点不需要从头重训任一组件 — Moshi 保留为前端,一个 LLM(推测是他们自己的,paper 指明 TinySwallow 级)管后端。对语音代理 builder,这意味着「你选延迟或知识」的假设从现在开始是错的;架构模板存在、权重公开、eval set 可复现。
具体动作:如果你今天跑级联语音代理,延迟是头号投诉,KAME 的 tandem 模板值得一周原型 — 延迟优势大到足以在单一 customer-service flow 上测。如果你跑纯 S2S,你的 agent 被抓到不知道事情(Moshi 典型生产失败模式),oracle 流模式可移植到其他前端,不只是 Sakana 的 checkpoint。要标的 eval 边界:KAME 在 MT-Bench reasoning/STEM/humanities 上测过,没在 coding、extraction、math 上 — 这些在训练早期作为 speech 不兼容失败,你不该假设 KAME 的音频输出对代码听写或数值提取是良好成型的。对结构化输出保真度比自然度更重要的领域,级联管线仍然赢。
