Grok Voice Think Fast 1.0 da xAI lidera τ-voice Bench com 67,3%, mas o benchmark é da xAI

A xAI lançou hoje o grok-voice-think-fast-1.0, reivindicando o primeiro lugar no τ-voice Bench com 67,3% — bem à frente do Gemini 3.1 Flash Live (43,8%), do próprio Grok Voice Fast 1.0 (38,3%) e do GPT Realtime 1.5 (35,3%). Os recortes por vertical são ainda mais acentuados: Telecom mostra o modelo a 73,7% contra 21,9% do Gemini e 21,1% do GPT Realtime. Varejo a 62,3%, Aviação a 66%. Grandes diferenças em todos os frontes, e a xAI faz uma reivindicação séria sobre a categoria de agentes de voz full-duplex.

Recue um segundo do leaderboard. τ-voice Bench é o benchmark da xAI, modelado a partir do framework τ-bench da Sierra mas estendido para áudio ruidoso, sotaques e tratamento de interrupções. Benchmarks auto-avaliados não são automaticamente errados, mas o conjunto de comparação também merece leitura cuidadosa: Gemini 3.1 Flash Live é o tier de voz mais barato e de menor latência do Google, não o modelo de topo, e GPT Realtime 1.5 é o produto de voz mais antigo da OpenAI, não o que estejam preparando agora. A xAI não se mediu contra Gemini 3.1 Pro Live nem contra nenhum dos stacks de voz em produção que Sierra e PolyAI operam. A liderança é real, mas a comparação foi curada.

O dado mais útil está enterrado mais abaixo no anúncio: grok-voice-think-fast-1.0 já está rodando as operações telefônicas ao vivo da Starlink. Os números que a xAI publica desse deployment são 20% de conversão de vendas em consultas telefônicas, 70% de resolução autônoma em suporte, 28 ferramentas distintas conectadas a centenas de fluxos de trabalho, e suporte a 25+ idiomas. São métricas de produção de uma base de clientes que não fica na linha com um agente ruim. O "raciocínio em segundo plano com zero latência adicionada" — rodar passes de raciocínio em paralelo com a geração de voz em vez de em série — é a resposta arquitetônica certa ao problema que os agentes de voz mais velhos têm, em que se ouvia o modelo pensar antes de responder.

Para desenvolvedores construindo produtos de voz, a conclusão honesta é que a API merece uma avaliação real, especialmente se você tem áudio telefônico ruidoso ou precisa de chamadas de ferramentas no meio da conversa. Não tome os números do τ-voice Bench como evangelho: rode seus próprios fluxos contra o Gemini 3 Pro Live e o gpt-realtime da OpenAI, no seu próprio áudio, com suas próprias ferramentas, antes de se comprometer. O deployment da Starlink é a evidência mais forte de que o modelo é realmente production-grade; o leaderboard é a mais fraca. A xAI ainda não publicou preços nem alvos de latência, que são as próximas perguntas que qualquer um avaliando isso para um call center real vai precisar respondidas.

Grok Voice Think Fast 1.0 da xAI lidera τ-voice Bench com 67,3%, mas o benchmark é da xAI

Mais notícias