Google和Cohere的音频模型在炒作背后缺乏实质内容

Google和Cohere本周发布了新的音频导向AI模型，Google的Gemini 3.1 Flash Live针对客户服务自动化，Cohere的未命名模型专注于语音转录。两家公司都声称比之前版本有"显著更高的输出质量"，但都没有提供开发者真正需要的具体benchmarks、性能指标或详细技术规格。

这种没有实质内容的模糊能力声明模式在AI领域正变得令人厌烦。音频处理是出了名的难以做好——延迟、准确性、口音处理和噪音过滤在生产环境中都极其重要。当OpenAI推出他们的实时语音API时，至少提供了清晰的延迟数字和质量样本。而在这里，我们得到的是关于"优化"的营销话术，却没有支撑数据。

特别令人沮丧的是，我对Google自家产品的研究除了通用Chrome浏览器页面和搜索界面外什么都没找到。没有开发者文档，没有API端点，没有定价——只有常见的企业数字荒草。对于所谓要推出新模型的公司来说，信息架构表明这些产品还没准备好被开发者认真采用。

如果你在构建音频应用，在跳入这些发布之前等待实际benchmarks和真实世界测试。AI音频空间发展迅速，但实质内容比公告更重要。在我们看到具体性能数据之前，将这些视为占位符发布而不是生产就绪工具。

Google和Cohere的音频模型在炒作背后缺乏实质内容

更多新闻