KAME de Sakana inyecta conocimiento LLM en voz estilo Moshi sin penalidad de latencia

Sakana AI ha lanzado KAME, una arquitectura speech-to-speech en tándem que inyecta conocimiento LLM en un pipeline de voz en tiempo real sin la latencia de cascada que ha plagado los híbridos S2S+LLM. El truco son componentes asíncronos paralelos: un front-end estilo Moshi extendido genera respuestas habladas de inmediato mientras un LLM back-end procesa continuamente la transcripción del usuario y stream señales de conocimiento refinadas al front-end a mitad de enunciado. Paper en arxiv.org/pdf/2510.02327; pesos en huggingface.co/SakanaAI/kame.

El movimiento arquitectónico es el "flujo oracle" — un cuarto canal injertado en el diseño de tres flujos de Moshi (audio entrada, monólogo interno/texto, audio salida). Mientras el usuario habla, el speech-to-text en streaming construye una transcripción parcial y la despacha al LLM back-end, que devuelve respuestas candidatas progresivamente refinadas. El front-end condiciona su generación vocal en curso sobre los oracles entrantes, actualizando a mitad de oración a medida que llegan mejores. El LLM es plug-and-play: KAME fue entrenado usando GPT-4.1-nano pero en inferencia soporta GPT-4.1, Claude Opus 4.1, y Gemini 2.5 Flash. En MT-Bench razonamiento/STEM/humanidades, Moshi base puntúa 2,05; KAME con backend GPT-4.1 alcanza 6,43 a latencia casi-cero; con Claude Opus, 6,23. Una baseline en cascada (Unmute) alcanza 7,70 pero con 2,1s de latencia agregada. El trade-off es nítido: KAME cede aproximadamente 1,3 puntos MT-Bench para ganar interactividad en tiempo real.

Esto importa porque el espacio S2S ha estado bifurcado: modelos nativos S2S de baja latencia (Moshi, voz GPT-4o) que carecen de razonamiento profundo, y pipelines en cascada (STT → LLM → TTS) que razonan bien pero se sienten lentos. El encuadre tándem de Sakana argumenta que no tienes que elegir. La plantilla arquitectónica — modelo pequeño rápido condicionado sobre un flujo de un modelo más grande más lento — generaliza más allá de la voz; espera ver este patrón aterrizar en sistemas de agentes en tiempo real donde las decisiones necesitan seguir moviéndose mientras razonamiento más pesado se pone al día. Sakana sigue siendo uno de los pocos labs que confiablemente entrega contribuciones arquitectónicas novedosas en lugar de comunicados sobre escalado.

Si estás construyendo agentes de voz, KAME vale evaluación directa contra tus objetivos de latencia — la afirmación casi-cero es empírica, no aspiracional. El backend LLM plug-and-play significa que puedes conectar tu propio proveedor; útil si ya estás pagando un fuerte modelo de razonamiento y quieres extenderlo a voz sin la penalidad de cascada. Para investigación, el patrón flujo-oracle es lo que llevas — aplicable donde sea que tengas un split rápido/lento y necesites mantener el lado rápido responsivo.

KAME de Sakana inyecta conocimiento LLM en voz estilo Moshi sin penalidad de latencia

Más noticias