Sakana 的 KAME:把 LLM 知識注入 Moshi 風格語音,而不付出延遲代價

Sakana AI 已發布 KAME,一種並聯式 speech-to-speech 架構,把 LLM 知識注入即時語音管線,而不是再吃 S2S+LLM 混合系統一直背著的級聯延遲。訣竅是並行的非同步元件:擴展版 Moshi 前端立刻生成口語回覆,同時後端 LLM 持續處理使用者的轉寫文字,在使用者講話過程中把精煉後的知識訊號 stream 進前端。論文:arxiv.org/pdf/2510.02327;權重:huggingface.co/SakanaAI/kame。

架構上的關鍵動作是「oracle 流」—— 在 Moshi 原本的三流設計(輸入音訊、內心獨白/文字、輸出音訊)上嫁接出第四個通道。使用者開口的瞬間,串流 STT 構造部分轉寫並送給後端 LLM,LLM 回傳逐步精煉的候選回覆。前端會根據進來的 oracle 訊號去調節正在生成的語音,在句子還沒說完的時候,如果有更好的 oracle 到來就即時更新。LLM 即插即換:KAME 訓練時用的是 GPT-4.1-nano,推論時支援 GPT-4.1、Claude Opus 4.1、Gemini 2.5 Flash。在 MT-Bench 推理/STEM/人文測試上,基線 Moshi 得 2.05;KAME 配 GPT-4.1 後端在近零延遲下達到 6.43,配 Claude Opus 是 6.23。級聯基線(Unmute)能到 7.70,但帶 2.1 秒的額外延遲。取捨很清楚:KAME 讓出約 1.3 個 MT-Bench 點,換來即時互動。

這之所以重要,是因為 speech-to-speech 這個空間一直分成兩半:低延遲原生 S2S 模型(Moshi、GPT-4o 語音)缺乏深層推理;而級聯管線(STT → LLM → TTS)推理不錯但聽起來卡頓。Sakana 的並聯框架在主張:你不需要二選一。這種架構模板 —— 一個小而快的模型在一條來自更大更慢模型的流上做條件 —— 不只適用於語音;預計這一模式會落到那些需要讓快側持續回應、而重推理在追趕的即時代理系統中。Sakana 仍然是少數幾家持續在交付新穎架構貢獻而不是堆 scaling 通稿的實驗室之一。

如果你在做語音代理,KAME 值得直接對照你的延遲指標做評估 —— 「近零延遲」的說法是經驗資料,不是宣傳辭令。即插即換的 LLM 後端意味著你可以接自己的供應商;如果你已經在為一個強推理模型付費、想把它擴展到語音而不吃級聯代價,這條路特別有用。對研究而言,oracle-flow 模式是帶回家的那一份 —— 任何你有「快/慢」分工、並需要讓快這一側保持回應的地方,它都適用。

Sakana 的 KAME:把 LLM 知識注入 Moshi 風格語音,而不付出延遲代價

更多新聞