A xAI lançou hoje o grok-voice-think-fast-1.0, reivindicando o primeiro lugar no τ-voice Bench com 67,3% — bem à frente do Gemini 3.1 Flash Live (43,8%), do próprio Grok Voice Fast 1.0 (38,3%) e do GPT Realtime 1.5 (35,3%). Os recortes por vertical são ainda mais acentuados: Telecom mostra o modelo a 73,7% contra 21,9% do Gemini e 21,1% do GPT Realtime. Varejo a 62,3%, Aviação a 66%. Grandes diferenças em todos os frontes, e a xAI faz uma reivindicação séria sobre a categoria de agentes de voz full-duplex.

Recue um segundo do leaderboard. τ-voice Bench é o benchmark da xAI, modelado a partir do framework τ-bench da Sierra mas estendido para áudio ruidoso, sotaques e tratamento de interrupções. Benchmarks auto-avaliados não são automaticamente errados, mas o conjunto de comparação também merece leitura cuidadosa: Gemini 3.1 Flash Live é o tier de voz mais barato e de menor latência do Google, não o modelo de topo, e GPT Realtime 1.5 é o produto de voz mais antigo da OpenAI, não o que estejam preparando agora. A xAI não se mediu contra Gemini 3.1 Pro Live nem contra nenhum dos stacks de voz em produção que Sierra e PolyAI operam. A liderança é real, mas a comparação foi curada.

O dado mais útil está enterrado mais abaixo no anúncio: grok-voice-think-fast-1.0 já está rodando as operações telefônicas ao vivo da Starlink. Os números que a xAI publica desse deployment são 20% de conversão de vendas em consultas telefônicas, 70% de resolução autônoma em suporte, 28 ferramentas distintas conectadas a centenas de fluxos de trabalho, e suporte a 25+ idiomas. São métricas de produção de uma base de clientes que não fica na linha com um agente ruim. O "raciocínio em segundo plano com zero latência adicionada" — rodar passes de raciocínio em paralelo com a geração de voz em vez de em série — é a resposta arquitetônica certa ao problema que os agentes de voz mais velhos têm, em que se ouvia o modelo pensar antes de responder.

Para desenvolvedores construindo produtos de voz, a conclusão honesta é que a API merece uma avaliação real, especialmente se você tem áudio telefônico ruidoso ou precisa de chamadas de ferramentas no meio da conversa. Não tome os números do τ-voice Bench como evangelho: rode seus próprios fluxos contra o Gemini 3 Pro Live e o gpt-realtime da OpenAI, no seu próprio áudio, com suas próprias ferramentas, antes de se comprometer. O deployment da Starlink é a evidência mais forte de que o modelo é realmente production-grade; o leaderboard é a mais fraca. A xAI ainda não publicou preços nem alvos de latência, que são as próximas perguntas que qualquer um avaliando isso para um call center real vai precisar respondidas.