Google和Cohere的音訊模型在炒作背後缺乏實質內容

Google和Cohere本週發布了新的音訊導向AI模型，Google的Gemini 3.1 Flash Live針對客戶服務自動化，Cohere的未命名模型專注於語音轉錄。兩家公司都聲稱比之前版本有「顯著更高的輸出品質」，但都沒有提供開發者真正需要的具體benchmarks、效能指標或詳細技術規格。

這種沒有實質內容的模糊能力聲明模式在AI領域正變得令人厭煩。音訊處理是出了名的難以做好——延遲、準確性、口音處理和噪音過濾在生產環境中都極其重要。當OpenAI推出他們的即時語音API時，至少提供了清晰的延遲數字和品質樣本。而在這裡，我們得到的是關於「最佳化」的行銷話術，卻沒有支撐資料。

特別令人沮喪的是，我對Google自家產品的研究除了通用Chrome瀏覽器頁面和搜尋介面外什麼都沒找到。沒有開發者文件，沒有API端點，沒有定價——只有常見的企業數位荒草。對於所謂要推出新模型的公司來說，資訊架構表明這些產品還沒準備好被開發者認真採用。

如果你在構建音訊應用程式，在跳入這些發布之前等待實際benchmarks和真實世界測試。AI音訊空間發展迅速，但實質內容比公告更重要。在我們看到具體效能資料之前，將這些視為佔位符發布而不是生產就緒工具。

Google和Cohere的音訊模型在炒作背後缺乏實質內容

更多新聞