KAME de Sakana injecte du savoir LLM dans la voix style Moshi sans ajouter de latence

Sakana AI a publié KAME, une architecture speech-to-speech en tandem qui injecte du savoir LLM dans un pipeline vocal temps réel sans la latence de cascade qui plombait les hybrides S2S+LLM. L'astuce, c'est des composants asynchrones parallèles : un front-end style Moshi étendu génère des réponses parlées immédiatement pendant qu'un LLM en back-end traite continuellement la transcription de l'utilisateur et stream des signaux de savoir raffinés vers le front-end en plein milieu de l'énoncé. Papier sur arxiv.org/pdf/2510.02327; poids sur huggingface.co/SakanaAI/kame.

Le coup architectural est le « flux oracle » — un quatrième canal greffé sur le design à trois flux de Moshi (audio entrée, monologue intérieur/texte, audio sortie). Pendant que l'utilisateur parle, le speech-to-text en streaming construit une transcription partielle et l'envoie au LLM back-end, qui retourne des réponses candidates progressivement raffinées. Le front-end conditionne sa génération vocale en cours sur les oracles entrants, mettant à jour en milieu de phrase à mesure que de meilleurs arrivent. Le LLM est plug-and-play : KAME a été entraîné avec GPT-4.1-nano mais supporte à l'inférence GPT-4.1, Claude Opus 4.1 et Gemini 2.5 Flash. Sur MT-Bench raisonnement/STEM/humanités, le Moshi de base score 2,05; KAME avec back-end GPT-4.1 monte à 6,43 à latence quasi-nulle; avec Claude Opus, 6,23. Une baseline en cascade (Unmute) atteint 7,70 mais avec 2,1s de latence ajoutée. Le compromis est net : KAME cède environ 1,3 point MT-Bench pour gagner l'interactivité temps réel.

Ça compte parce que l'espace S2S a été bifurqué : modèles natifs S2S faible-latence (Moshi, voix GPT-4o) qui manquent de raisonnement profond, et pipelines en cascade (STT → LLM → TTS) qui raisonnent bien mais semblent lents. Le cadrage tandem de Sakana argumente qu'il ne faut pas choisir. Le template architectural — petit modèle rapide conditionné sur un flux d'un modèle plus grand plus lent — généralise au-delà de la voix; attends-toi à voir ce pattern atterrir dans les systèmes d'agents temps réel où les décisions doivent continuer à bouger pendant que le raisonnement plus lourd rattrape. Sakana continue d'être un des rares labos qui livrent fiablement des contributions architecturales nouvelles plutôt que des communiqués sur le scaling.

Si tu construis des agents vocaux, KAME mérite une éval directe contre tes cibles de latence — la prétention quasi-nulle est empirique, pas aspirationnelle. Le back-end LLM plug-and-play signifie que tu peux brancher ton propre fournisseur; utile si tu paies déjà un fort modèle de raisonnement et veux l'étendre à la voix sans la pénalité cascade. Pour la recherche, le pattern flux-oracle est le take-away — applicable partout où tu as un split rapide/lent et besoin de garder le côté rapide réactif.

KAME de Sakana injecte du savoir LLM dans la voix style Moshi sans ajouter de latence

Plus de nouvelles