xAI 今天發布了 grok-voice-think-fast-1.0,宣稱在 τ-voice Bench 上以 67.3% 拿下第一,遠超 Gemini 3.1 Flash Live(43.8%)、xAI 自己之前的 Grok Voice Fast 1.0(38.3%)和 GPT Realtime 1.5(35.3%)。各垂直行業的差距更明顯:電信領域該模型 73.7%,Gemini 只有 21.9%,GPT Realtime 21.1%。零售 62.3%,航空 66%。各條戰線差距都不小,xAI 在全雙工語音 agent 這個類別上下了重注。
先從排行榜上退一步。τ-voice Bench 是 xAI 自己的基準,借鑑了 Sierra 的 τ-bench 框架,擴展到嘈雜音訊、口音和打斷處理。自評基準並不自動有問題,但對比集也值得仔細看:Gemini 3.1 Flash Live 是 Google 更便宜、低延遲的語音檔位,不是頂級模型;GPT Realtime 1.5 是 OpenAI 較舊的語音產品,不是他們現在正在做的東西。xAI 沒有去對比 Gemini 3.1 Pro Live,也沒有對比 Sierra 和 PolyAI 在生產環境部署的語音 stack。領先是真的,但對比是精挑細選過的。
更有用的資料點埋在公告下面:grok-voice-think-fast-1.0 已經在跑 Starlink 的即時電話業務。xAI 公布的部署數字是:電話諮詢銷售轉換率 20%,客服自主解決率 70%,28 個不同的工具接入數百個工作流,支援 25+ 種語言。這些是生產指標,來自一個不會忍受爛 agent 的客戶群。所謂「後台推理零額外延遲」——把推理過程和語音生成並行跑而不是串行——這是對老式語音 agent 問題的正確架構答案,老式 agent 你能聽到模型先思考再回答。
對構建語音產品的開發者來說,誠實的結論是這個 API 值得一次真正的評估,尤其當你有嘈雜的電話音訊或需要在對話中途調工具時。別把 τ-voice Bench 的數字當聖經:用你自己的對話流程、自己的音訊、自己的工具,去對比 Gemini 3 Pro Live 和 OpenAI 的 gpt-realtime,再決定要不要投入。Starlink 部署是模型確實達到生產級別的最強證據;排行榜是最弱的。xAI 還沒公布價格或延遲目標,這是任何為真實呼叫中心評估它的人接下來要弄清楚的問題。
