Sakana AI 已发布 KAME,一种并联式 speech-to-speech 架构,把 LLM 知识注入实时语音管线,而不是再吃 S2S+LLM 混合系统一直背着的级联延迟。诀窍是并行的异步组件:扩展版 Moshi 前端立刻生成口语回复,同时后端 LLM 持续处理用户的转写文本,在用户讲话过程中把精炼后的知识信号 stream 进前端。论文:arxiv.org/pdf/2510.02327;权重:huggingface.co/SakanaAI/kame。
架构上的关键动作是"oracle 流" —— 在 Moshi 原本的三流设计(输入音频、内心独白/文本、输出音频)上嫁接出第四个通道。用户开口的瞬间,流式 STT 构造部分转写并送给后端 LLM,LLM 返回逐步精炼的候选回复。前端会根据进来的 oracle 信号去调节正在生成的语音,在句子还没说完的时候,如果有更好的 oracle 到来就实时更新。LLM 即插即换:KAME 训练时用的是 GPT-4.1-nano,推理时支持 GPT-4.1、Claude Opus 4.1、Gemini 2.5 Flash。在 MT-Bench 推理/STEM/人文测试上,基线 Moshi 得 2.05;KAME 配 GPT-4.1 后端在近零延迟下达到 6.43,配 Claude Opus 是 6.23。级联基线(Unmute)能到 7.70,但带 2.1 秒的额外延迟。取舍很清楚:KAME 让出约 1.3 个 MT-Bench 点,换来实时交互。
这之所以重要,是因为 speech-to-speech 这个空间一直分成两半:低延迟原生 S2S 模型(Moshi、GPT-4o 语音)缺乏深层推理;而级联管线(STT → LLM → TTS)推理不错但听起来卡顿。Sakana 的并联框架在主张:你不需要二选一。这种架构模板 —— 一个小而快的模型在一条来自更大更慢模型的流上做条件 —— 不只适用于语音;预计这一模式会落到那些需要让快侧持续响应、而重推理在追赶的实时代理系统中。Sakana 仍然是少数几家持续在交付新颖架构贡献而不是堆 scaling 通稿的实验室之一。
如果你在做语音代理,KAME 值得直接对照你的延迟指标做评估 —— "近零延迟"的说法是经验数据,不是宣传辞令。即插即换的 LLM 后端意味着你可以接自己的供应商;如果你已经在为一个强推理模型付费、想把它扩展到语音而不吃级联代价,这条路特别有用。对研究而言,oracle-flow 模式是带回家的那一份 —— 任何你有"快/慢"分工、并需要让快这一侧保持响应的地方,它都适用。
