xAI 的 Grok Voice Think Fast 1.0 在 τ-voice Bench 上以 67.3% 登顶，但基准测试是 xAI 自己的

xAI 今天发布了 grok-voice-think-fast-1.0，宣称在 τ-voice Bench 上以 67.3% 拿下第一，远超 Gemini 3.1 Flash Live（43.8%）、xAI 自己之前的 Grok Voice Fast 1.0（38.3%）和 GPT Realtime 1.5（35.3%）。各垂直行业的差距更明显：电信领域该模型 73.7%，Gemini 只有 21.9%，GPT Realtime 21.1%。零售 62.3%，航空 66%。各条战线差距都不小，xAI 在全双工语音 agent 这个类别上下了重注。

先从排行榜上退一步。τ-voice Bench 是 xAI 自己的基准，借鉴了 Sierra 的 τ-bench 框架，扩展到嘈杂音频、口音和打断处理。自评基准并不自动有问题，但对比集也值得仔细看：Gemini 3.1 Flash Live 是谷歌更便宜、低延迟的语音档位，不是顶级模型；GPT Realtime 1.5 是 OpenAI 较旧的语音产品，不是他们现在正在做的东西。xAI 没有去对比 Gemini 3.1 Pro Live，也没有对比 Sierra 和 PolyAI 在生产环境部署的语音 stack。领先是真的，但对比是精挑细选过的。

更有用的数据点埋在公告下面：grok-voice-think-fast-1.0 已经在跑 Starlink 的实时电话业务。xAI 公布的部署数字是：电话咨询销售转化率 20%，客服自主解决率 70%，28 个不同的工具接入数百个工作流，支持 25+ 种语言。这些是生产指标，来自一个不会忍受烂 agent 的客户群。所谓"后台推理零额外延迟"——把推理过程和语音生成并行跑而不是串行——这是对老式语音 agent 问题的正确架构答案，老式 agent 你能听到模型先思考再回答。

对构建语音产品的开发者来说，诚实的结论是这个 API 值得一次真正的评估，尤其当你有嘈杂的电话音频或需要在对话中途调工具时。别把 τ-voice Bench 的数字当圣经：用你自己的对话流程、自己的音频、自己的工具，去对比 Gemini 3 Pro Live 和 OpenAI 的 gpt-realtime，再决定要不要投入。Starlink 部署是模型确实达到生产级别的最强证据；排行榜是最弱的。xAI 还没公布价格或延迟目标，这是任何为真实呼叫中心评估它的人接下来要弄清楚的问题。

xAI 的 Grok Voice Think Fast 1.0 在 τ-voice Bench 上以 67.3% 登顶，但基准测试是 xAI 自己的

更多新闻