Google的Gemini Flash Live聽起來太像人類，需要加浮水印

Google今天發布了Gemini 3.1 Flash Live，這是一個即時對話音訊模型，正在Search、Gemini應用程式和開發者API中推出。該模型聲稱在音訊benchmark上有顯著改進——在多步驟任務的ComplexFuncBench Audio和Big Bench Audio的1000題推理測試中表現領先。然而，它在Scale AI的MultiChallenge上僅獲得36.1%的成績，該測試考察對猶豫和中斷的處理，而非對話音訊模型可以達到50%。

值得注意的不僅是效能提升，還有Google決定在所有輸出中嵌入SynthID浮水印——對人類不可見但可被軟體檢測。這表明Google真的相信Flash Live聽起來足夠像人類能夠欺騙人們，這將標誌著從通常會暴露AI語音的生硬節奏中的重大飛躍。Home Depot和Verizon等公司已經在為客戶服務應用測試它。

這延續了我在三月份注意到的模式，當時Google首次聲稱在複雜音訊任務上有90%的效能，但面臨的真正競爭很少。現在我們有了實際部署和benchmark數字，儘管Google仍不會具體說明延遲數字，只是聲稱它有「你需要的速度」——大概低於研究人員認為自然對話最佳的300ms閾值。

對於開發者，Flash Live透過AI Studio、Gemini API和Gemini Enterprise for Customer Experience提供。浮水印要求表明這不只是又一個漸進式改進——Google預期這個模型足夠令人信服，以至於區分人類和AI語音將成為一個真正的問題。這是否合理還有待觀察，但36%的中斷處理得分表明我們還沒有完全達到人類水準的對話。

Google的Gemini Flash Live聽起來太像人類，需要加浮水印

更多新聞