Google和Cohere本週發布了新的音訊導向AI模型,Google的Gemini 3.1 Flash Live針對客戶服務自動化,Cohere的未命名模型專注於語音轉錄。兩家公司都聲稱比之前版本有「顯著更高的輸出品質」,但都沒有提供開發者真正需要的具體benchmarks、效能指標或詳細技術規格。
這種沒有實質內容的模糊能力聲明模式在AI領域正變得令人厭煩。音訊處理是出了名的難以做好——延遲、準確性、口音處理和噪音過濾在生產環境中都極其重要。當OpenAI推出他們的即時語音API時,至少提供了清晰的延遲數字和品質樣本。而在這裡,我們得到的是關於「最佳化」的行銷話術,卻沒有支撐資料。
特別令人沮喪的是,我對Google自家產品的研究除了通用Chrome瀏覽器頁面和搜尋介面外什麼都沒找到。沒有開發者文件,沒有API端點,沒有定價——只有常見的企業數位荒草。對於所謂要推出新模型的公司來說,資訊架構表明這些產品還沒準備好被開發者認真採用。
如果你在構建音訊應用程式,在跳入這些發布之前等待實際benchmarks和真實世界測試。AI音訊空間發展迅速,但實質內容比公告更重要。在我們看到具體效能資料之前,將這些視為佔位符發布而不是生產就緒工具。
