Sakana KAME：80ms S2S 延迟 + LLM oracle 流，HF 上开源权重

Sakana 发布了 KAME，一个 tandem 语音到语音架构，解决了跑语音代理的 builder 一直卡住的取舍：级联管线（STT → LLM → TTS）首响应中位数延迟 2.1 秒但带 LLM 完整知识深度，而像 Moshi 这种纯端到端 S2S 跑 ~80ms 每 token 但失去深度。KAME 把两者合起来 — Moshi 级 S2S 前端、异步运行的流式 STT+LLM 后端，以及他们叫做「oracle 流」的第四信号通道，把 LLM 预测在 S2S 已经在产生音频的同时喂入。权重、paper、推理代码在 Hugging Face 和 GitHub 公开。

机制是有意思的部分。Moshi 原始设计用三个流 — 输入音频、内部独白文本、输出音频 — 在单一 transformer 中共同建模。KAME 加了第四个：由后端 LLM 在用户 transcript 渐进完成时生成的 oracle token。后端不等说话完结；它在部分 transcript 上跑预测，随着更多音频到来精炼。这些 oracle token 流入 S2S 模型，后者在内部上下文和进入的 oracle 上条件化正在进行的音频生成。结果：首 token 延迟保持在 Moshi 级 ~80ms，而响应内容携带后端 LLM 的知识深度。后端解耦到足以让 S2S 在 LLM 还在思考时继续生成环境声学连续性 — paper 中「边想边说」的 framing。训练：56,582 个合成对话从 MMLU-Pro、GSM8K、HSSBench 文本转成音频，eval 在 MT-Bench reasoning/STEM/humanities（coding、extraction、math 因不适合 speech 任务被排除）。

生态读法是 Sakana 关闭了语音代理 stack 中一个真实 gap。级联系统主导生产部署故事两年，因为 LLM 知识深度是 value-add — 你为正确答案容忍 2s 延迟。像 Moshi（和 OpenAI 的 Realtime API 类）的端到端 S2S 用深度换自然度，在 customer-service 生产中保持小众，因为打电话的人会注意到 agent 实际上不知道自己在说什么。KAME 是第一个公开 ship 令人信服地打破这种取舍的架构，做到这点不需要从头重训任一组件 — Moshi 保留为前端，一个 LLM（推测是他们自己的，paper 指明 TinySwallow 级）管后端。对语音代理 builder，这意味着「你选延迟或知识」的假设从现在开始是错的；架构模板存在、权重公开、eval set 可复现。

具体动作：如果你今天跑级联语音代理，延迟是头号投诉，KAME 的 tandem 模板值得一周原型 — 延迟优势大到足以在单一 customer-service flow 上测。如果你跑纯 S2S，你的 agent 被抓到不知道事情（Moshi 典型生产失败模式），oracle 流模式可移植到其他前端，不只是 Sakana 的 checkpoint。要标的 eval 边界：KAME 在 MT-Bench reasoning/STEM/humanities 上测过，没在 coding、extraction、math 上 — 这些在训练早期作为 speech 不兼容失败，你不该假设 KAME 的音频输出对代码听写或数值提取是良好成型的。对结构化输出保真度比自然度更重要的领域，级联管线仍然赢。

Sakana KAME：80ms S2S 延迟 + LLM oracle 流，HF 上开源权重

更多新闻