xAI a sorti grok-voice-think-fast-1.0 aujourd'hui, en revendiquant la première place du τ-voice Bench à 67,3 % — bien devant Gemini 3.1 Flash Live (43,8 %), leur propre Grok Voice Fast 1.0 (38,3 %) et GPT Realtime 1.5 (35,3 %). Les détails par secteur sont encore plus marqués : Télécom à 73,7 % contre 21,9 % pour Gemini et 21,1 % pour GPT Realtime. Retail à 62,3 %, Aérien à 66 %. Des écarts importants partout, et xAI revendique sérieusement la catégorie des agents vocaux full-duplex.

Recule deux secondes du tableau. τ-voice Bench, c'est le benchmark de xAI, calqué sur le τ-bench de Sierra mais étendu à l'audio bruyant, aux accents pis à la gestion des interruptions. Un benchmark auto-évalué, ç'a pas tort par défaut, mais l'ensemble de comparaison mérite une lecture attentive : Gemini 3.1 Flash Live, c'est le palier voix bas de gamme, pas le modèle haut de gamme, et GPT Realtime 1.5, c'est le vieux produit vocal d'OpenAI, pas ce qu'ils préparent en arrière-plan. xAI s'est pas mesuré à Gemini 3.1 Pro Live ni aux stacks de production que Sierra et PolyAI font tourner. L'avance est réelle, mais le panel est trié.

La donnée plus utile est enfouie plus bas dans l'annonce : grok-voice-think-fast-1.0 fait déjà tourner les opérations téléphoniques en direct chez Starlink. Les chiffres que xAI publie depuis ce déploiement, c'est 20 % de conversion en vente sur les appels entrants, 70 % de résolution autonome au support, 28 outils différents branchés dans des centaines de workflows, et plus de 25 langues. Ça vient d'une base de clients qui raccroche vite si l'agent est nul. Le « raisonnement en arrière-plan sans latence ajoutée » — faire tourner les passes de raisonnement en parallèle de la génération vocale plutôt qu'en série — c'est la bonne réponse architecturale au problème des anciens agents vocaux, où tu entendais le modèle réfléchir avant qu'il réponde.

Pour les développeurs qui bâtissent du vocal, l'honnête à retenir, c'est que l'API mérite une vraie évaluation, surtout si t'as de l'audio téléphonique bruyant ou que t'as besoin d'appels d'outils en pleine conversation. Prends pas les chiffres τ-voice Bench pour parole d'évangile : fais tes propres flows contre Gemini 3 Pro Live pis le gpt-realtime d'OpenAI, sur ton propre audio, avec tes propres outils, avant de t'engager. Le déploiement Starlink, c'est la meilleure preuve que le modèle tient en production ; le leaderboard, c'est la plus faible. xAI a pas encore publié de prix ni de cibles de latence, et c'est les questions que n'importe qui qui évalue ça pour un vrai centre d'appels va devoir clarifier.