xAI lanzó hoy grok-voice-think-fast-1.0 reclamando el primer puesto en τ-voice Bench con 67,3 %, muy por delante de Gemini 3.1 Flash Live (43,8 %), su propio Grok Voice Fast 1.0 (38,3 %) y GPT Realtime 1.5 (35,3 %). Los desgloses por vertical son aún más marcados: Telecom muestra al modelo en 73,7 % frente a 21,9 % de Gemini y 21,1 % de GPT Realtime. Retail en 62,3 %, Aerolíneas en 66 %. Grandes diferencias en todos los frentes, y xAI hace una reclamación seria sobre la categoría de agentes de voz full-duplex.
Aléjate del leaderboard un momento. τ-voice Bench es el benchmark de xAI, modelado a partir del marco τ-bench de Sierra pero extendido a audio ruidoso, acentos y manejo de interrupciones. Los benchmarks auto-evaluados no son automáticamente erróneos, pero el conjunto de comparación también merece lectura cuidadosa: Gemini 3.1 Flash Live es el nivel de voz más barato y de menor latencia de Google, no el modelo de gama alta, y GPT Realtime 1.5 es el producto de voz más antiguo de OpenAI, no lo que estén cocinando ahora. xAI no se midió contra Gemini 3.1 Pro Live ni contra ninguno de los stacks de voz desplegados en producción que Sierra y PolyAI operan. La ventaja es real, pero la comparación está curada.
El dato más útil está enterrado más abajo en el anuncio: grok-voice-think-fast-1.0 ya está corriendo las operaciones telefónicas en vivo de Starlink. Los números que xAI publica desde ese despliegue son 20 % de conversión de ventas en consultas telefónicas, 70 % de resolución autónoma en soporte, 28 herramientas distintas conectadas a cientos de flujos de trabajo, y más de 25 idiomas. Son métricas de producción de una base de clientes que no se queda al teléfono con un agente malo. El "razonamiento en segundo plano con cero latencia añadida" — correr pases de razonamiento en paralelo con la generación de voz en lugar de en serie — es la respuesta arquitectónica correcta al problema que tienen los agentes de voz más viejos, donde escuchabas al modelo pensar antes de responder.
Para desarrolladores que construyen productos de voz, la conclusión honesta es que la API merece una evaluación real, especialmente si tienes audio telefónico ruidoso o necesitas llamadas a herramientas en medio de una conversación. No tomes los números de τ-voice Bench como dogma: corre tus propios flujos contra Gemini 3 Pro Live y el gpt-realtime de OpenAI, sobre tu propio audio, con tus propias herramientas, antes de comprometerte. El despliegue de Starlink es la evidencia más fuerte de que el modelo es realmente production-grade; el leaderboard es la más débil. xAI aún no ha publicado precios ni objetivos de latencia, que son las próximas preguntas que cualquiera evaluando esto para un call center real necesitará respondidas.
