Google發佈了Gemini 3.1 Flash Live,將其定位為他們在即時對話方面最高品質的音訊模型。該模型在ComplexFuncBench Audio上獲得90.8%的分數,這是一個測試多步驟函數呼叫的benchmark,在啟用「thinking」模式時,在Scale AI的Audio MultiChallenge上獲得36.1%的分數。該模型現在可透過Google AI Studio中的Gemini Live API供開發者使用,整合到Gemini Enterprise客戶體驗中,並透過Search Live和Gemini Live在200多個國家向消費者開放。

這次發佈表明Google正在推動擁有語音AI基礎設施層,而OpenAI則專注於ChatGPT的消費者功能。對「複雜任務執行」和企業整合的強調表明Google將語音代理視為下一個平台戰場。包含音訊浮水印顯示他們從一開始就在考慮假訊息風險——這是從文字生成爭議中學到的教訓。改進的「音調理解」和處理中斷的能力解決了開發者在建構生產語音應用時面臨的真正痛點。

缺乏競爭報導或第三方benchmark使得很難驗證Google的效能聲明。沒有獨立測試實驗室驗證了這些分數,Google自己的benchmark可能無法反映真實世界的效能。獲得36.1%分數需要「thinking」模式表明基礎模型在沒有額外處理負擔的情況下表現更差——這對延遲敏感的應用來說是一個重要細節。

對於建構語音代理的開發者來說,如果API定價有競爭力且延遲確實符合Google的聲明,這可能會很重要。企業重點和200國部署表明了認真的基礎設施投資,但在獨立benchmark出現之前,在得到證明之前應將這些效能數字視為行銷。