Sakana का KAME: Moshi-शैली स्पीच में LLM ज्ञान इंजेक्ट करता है, बिना latency कीमत के

Sakana AI ने KAME जारी किया है, एक tandem speech-to-speech आर्किटेक्चर जो रियल-टाइम स्पीच पाइपलाइन में LLM ज्ञान इंजेक्ट करता है — उस cascade latency के बिना जो S2S+LLM hybrids को परेशान करती रही। तरकीब है समानांतर असिंक्रोनस घटक: एक विस्तारित-Moshi फ़्रंट-एंड तुरंत बोले गए जवाब बनाता है जबकि एक बैक-एंड LLM लगातार उपयोगकर्ता का transcript प्रोसेस करता है और उच्चारण के बीच में परिष्कृत ज्ञान संकेत फ़्रंट-एंड में stream करता है। पेपर: arxiv.org/pdf/2510.02327; वेट्स: huggingface.co/SakanaAI/kame।

आर्किटेक्चरल चाल है "oracle stream" — Moshi के तीन-स्ट्रीम डिज़ाइन (इनपुट ऑडियो, आंतरिक मोनोलॉग/टेक्स्ट, आउटपुट ऑडियो) पर एक चौथा चैनल जोड़ा गया है। जब उपयोगकर्ता बोलता है, streaming speech-to-text आंशिक transcript बनाता है और उसे बैक-एंड LLM को भेजता है, जो उत्तरोत्तर परिष्कृत उम्मीदवार जवाब लौटाता है। फ़्रंट-एंड अपनी चालू स्पीच जनरेशन को आने वाले oracles पर आधारित करता है, बेहतर oracles आते ही वाक्य के बीच में अपडेट करता है। LLM प्लग-एंड-प्ले है: KAME को GPT-4.1-nano का उपयोग करके प्रशिक्षित किया गया था, पर inference-time में GPT-4.1, Claude Opus 4.1, और Gemini 2.5 Flash का समर्थन करता है। MT-Bench reasoning/STEM/humanities पर, baseline Moshi 2.05 स्कोर करता है; GPT-4.1 backend के साथ KAME लगभग-शून्य latency पर 6.43 तक पहुँचता है; Claude Opus के साथ 6.23। एक cascaded baseline (Unmute) 7.70 तक पहुँचती है पर 2.1s जोड़ी latency के साथ। trade-off तीखा है: KAME real-time इंटरएक्टिविटी पाने के लिए लगभग 1.3 MT-Bench अंक छोड़ देता है।

यह मायने रखता है क्योंकि speech-to-speech मॉडल स्पेस bifurcated रहा है: कम-latency native S2S मॉडल (Moshi, GPT-4o voice) जिनमें गहन reasoning की कमी है, और cascade pipelines (STT → LLM → TTS) जो अच्छी तरह reason करते हैं पर laggy लगते हैं। Sakana की tandem framing तर्क करती है कि चुनना नहीं है। आर्किटेक्चरल टेम्पलेट — एक छोटा तेज़ मॉडल एक बड़े धीमे मॉडल की stream पर conditioning — स्पीच से परे सामान्यीकरण करता है; इस पैटर्न को real-time agent systems में आते देखें जहाँ निर्णयों को चलते रहना है जबकि भारी reasoning पकड़ता है। Sakana कुछ ऐसे labs में से एक बना हुआ है जो scaling press releases के बजाय विश्वसनीय रूप से नए आर्किटेक्चरल योगदान भेजते हैं।

अगर आप voice agents बना रहे हैं, KAME को अपने latency लक्ष्यों के विरुद्ध सीधे मूल्यांकन के लिए लें — लगभग-शून्य का दावा अनुभवजन्य है, आकांक्षात्मक नहीं। प्लग-एंड-प्ले LLM backend का मतलब है आप अपना provider plug कर सकते हैं; उपयोगी अगर आप पहले से एक मज़बूत reasoning मॉडल के लिए भुगतान करते हैं और cascade penalty के बिना उसे voice तक बढ़ाना चाहते हैं। शोध के लिए, oracle-stream पैटर्न take-away है — कहीं भी जहाँ आपके पास तेज़/धीमा split है और तेज़ side को responsive रखना है, वहाँ लागू।

Sakana का KAME: Moshi-शैली स्पीच में LLM ज्ञान इंजेक्ट करता है, बिना latency कीमत के

और समाचार