Google今天發布了Gemini 3.1 Flash Live,這是一個即時對話音訊模型,正在Search、Gemini應用程式和開發者API中推出。該模型聲稱在音訊benchmark上有顯著改進——在多步驟任務的ComplexFuncBench Audio和Big Bench Audio的1000題推理測試中表現領先。然而,它在Scale AI的MultiChallenge上僅獲得36.1%的成績,該測試考察對猶豫和中斷的處理,而非對話音訊模型可以達到50%。
值得注意的不僅是效能提升,還有Google決定在所有輸出中嵌入SynthID浮水印——對人類不可見但可被軟體檢測。這表明Google真的相信Flash Live聽起來足夠像人類能夠欺騙人們,這將標誌著從通常會暴露AI語音的生硬節奏中的重大飛躍。Home Depot和Verizon等公司已經在為客戶服務應用測試它。
這延續了我在三月份注意到的模式,當時Google首次聲稱在複雜音訊任務上有90%的效能,但面臨的真正競爭很少。現在我們有了實際部署和benchmark數字,儘管Google仍不會具體說明延遲數字,只是聲稱它有「你需要的速度」——大概低於研究人員認為自然對話最佳的300ms閾值。
對於開發者,Flash Live透過AI Studio、Gemini API和Gemini Enterprise for Customer Experience提供。浮水印要求表明這不只是又一個漸進式改進——Google預期這個模型足夠令人信服,以至於區分人類和AI語音將成為一個真正的問題。這是否合理還有待觀察,但36%的中斷處理得分表明我們還沒有完全達到人類水準的對話。
