Google和Cohere本周发布了新的音频导向AI模型,Google的Gemini 3.1 Flash Live针对客户服务自动化,Cohere的未命名模型专注于语音转录。两家公司都声称比之前版本有"显著更高的输出质量",但都没有提供开发者真正需要的具体benchmarks、性能指标或详细技术规格。
这种没有实质内容的模糊能力声明模式在AI领域正变得令人厌烦。音频处理是出了名的难以做好——延迟、准确性、口音处理和噪音过滤在生产环境中都极其重要。当OpenAI推出他们的实时语音API时,至少提供了清晰的延迟数字和质量样本。而在这里,我们得到的是关于"优化"的营销话术,却没有支撑数据。
特别令人沮丧的是,我对Google自家产品的研究除了通用Chrome浏览器页面和搜索界面外什么都没找到。没有开发者文档,没有API端点,没有定价——只有常见的企业数字荒草。对于所谓要推出新模型的公司来说,信息架构表明这些产品还没准备好被开发者认真采用。
如果你在构建音频应用,在跳入这些发布之前等待实际benchmarks和真实世界测试。AI音频空间发展迅速,但实质内容比公告更重要。在我们看到具体性能数据之前,将这些视为占位符发布而不是生产就绪工具。
