xAI 今天发布了 grok-voice-think-fast-1.0,宣称在 τ-voice Bench 上以 67.3% 拿下第一,远超 Gemini 3.1 Flash Live(43.8%)、xAI 自己之前的 Grok Voice Fast 1.0(38.3%)和 GPT Realtime 1.5(35.3%)。各垂直行业的差距更明显:电信领域该模型 73.7%,Gemini 只有 21.9%,GPT Realtime 21.1%。零售 62.3%,航空 66%。各条战线差距都不小,xAI 在全双工语音 agent 这个类别上下了重注。

先从排行榜上退一步。τ-voice Bench 是 xAI 自己的基准,借鉴了 Sierra 的 τ-bench 框架,扩展到嘈杂音频、口音和打断处理。自评基准并不自动有问题,但对比集也值得仔细看:Gemini 3.1 Flash Live 是谷歌更便宜、低延迟的语音档位,不是顶级模型;GPT Realtime 1.5 是 OpenAI 较旧的语音产品,不是他们现在正在做的东西。xAI 没有去对比 Gemini 3.1 Pro Live,也没有对比 Sierra 和 PolyAI 在生产环境部署的语音 stack。领先是真的,但对比是精挑细选过的。

更有用的数据点埋在公告下面:grok-voice-think-fast-1.0 已经在跑 Starlink 的实时电话业务。xAI 公布的部署数字是:电话咨询销售转化率 20%,客服自主解决率 70%,28 个不同的工具接入数百个工作流,支持 25+ 种语言。这些是生产指标,来自一个不会忍受烂 agent 的客户群。所谓"后台推理零额外延迟"——把推理过程和语音生成并行跑而不是串行——这是对老式语音 agent 问题的正确架构答案,老式 agent 你能听到模型先思考再回答。

对构建语音产品的开发者来说,诚实的结论是这个 API 值得一次真正的评估,尤其当你有嘈杂的电话音频或需要在对话中途调工具时。别把 τ-voice Bench 的数字当圣经:用你自己的对话流程、自己的音频、自己的工具,去对比 Gemini 3 Pro Live 和 OpenAI 的 gpt-realtime,再决定要不要投入。Starlink 部署是模型确实达到生产级别的最强证据;排行榜是最弱的。xAI 还没公布价格或延迟目标,这是任何为真实呼叫中心评估它的人接下来要弄清楚的问题。