xAI 的 Grok Voice Think Fast 1.0 在 τ-voice Bench 以 67.3% 登頂，但基準測試是 xAI 自己的

xAI 今天發布了 grok-voice-think-fast-1.0，宣稱在 τ-voice Bench 上以 67.3% 拿下第一，遠超 Gemini 3.1 Flash Live（43.8%）、xAI 自己之前的 Grok Voice Fast 1.0（38.3%）和 GPT Realtime 1.5（35.3%）。各垂直行業的差距更明顯：電信領域該模型 73.7%，Gemini 只有 21.9%，GPT Realtime 21.1%。零售 62.3%，航空 66%。各條戰線差距都不小，xAI 在全雙工語音 agent 這個類別上下了重注。

先從排行榜上退一步。τ-voice Bench 是 xAI 自己的基準，借鑑了 Sierra 的 τ-bench 框架，擴展到嘈雜音訊、口音和打斷處理。自評基準並不自動有問題，但對比集也值得仔細看：Gemini 3.1 Flash Live 是 Google 更便宜、低延遲的語音檔位，不是頂級模型；GPT Realtime 1.5 是 OpenAI 較舊的語音產品，不是他們現在正在做的東西。xAI 沒有去對比 Gemini 3.1 Pro Live，也沒有對比 Sierra 和 PolyAI 在生產環境部署的語音 stack。領先是真的，但對比是精挑細選過的。

更有用的資料點埋在公告下面：grok-voice-think-fast-1.0 已經在跑 Starlink 的即時電話業務。xAI 公布的部署數字是：電話諮詢銷售轉換率 20%，客服自主解決率 70%，28 個不同的工具接入數百個工作流，支援 25+ 種語言。這些是生產指標，來自一個不會忍受爛 agent 的客戶群。所謂「後台推理零額外延遲」——把推理過程和語音生成並行跑而不是串行——這是對老式語音 agent 問題的正確架構答案，老式 agent 你能聽到模型先思考再回答。

對構建語音產品的開發者來說，誠實的結論是這個 API 值得一次真正的評估，尤其當你有嘈雜的電話音訊或需要在對話中途調工具時。別把 τ-voice Bench 的數字當聖經：用你自己的對話流程、自己的音訊、自己的工具，去對比 Gemini 3 Pro Live 和 OpenAI 的 gpt-realtime，再決定要不要投入。Starlink 部署是模型確實達到生產級別的最強證據；排行榜是最弱的。xAI 還沒公布價格或延遲目標，這是任何為真實呼叫中心評估它的人接下來要弄清楚的問題。

xAI 的 Grok Voice Think Fast 1.0 在 τ-voice Bench 以 67.3% 登頂，但基準測試是 xAI 自己的

更多新聞