Google y Cohere lanzaron nuevos modelos de IA enfocados en audio esta semana, con Gemini 3.1 Flash Live de Google dirigido a la automatización de atención al cliente y el modelo sin nombre de Cohere enfocado en transcripción de voz. Ambas empresas afirman tener "calidad de salida significativamente mayor" que las versiones anteriores, pero ninguna proporcionó benchmarks concretos, métricas de rendimiento o especificaciones técnicas detalladas que los desarrolladores realmente necesitan.
Este patrón de afirmaciones vagas sobre capacidades sin sustancia se está volviendo tedioso en el espacio de IA. El procesamiento de audio es notoriamente difícil de hacer bien — la latencia, precisión, manejo de acentos y filtrado de ruido importan enormemente en producción. Cuando OpenAI lanzó su API de voz en tiempo real, al menos proporcionaron números claros de latencia y muestras de calidad. Aquí, recibimos jerga de marketing sobre "optimización" sin los datos que lo respalden.
Lo que es particularmente frustrante es que mi investigación a través de las propias propiedades de Google no arrojó nada más que páginas genéricas del navegador Chrome e interfaces de búsqueda. Sin documentación para desarrolladores, sin endpoints de API, sin precios — solo las usuales hierbas rodadoras digitales corporativas. Para empresas supuestamente lanzando nuevos modelos, la arquitectura de información sugiere que estos no están listos para adopción seria por desarrolladores.
Si estás construyendo aplicaciones de audio, espera benchmarks reales y pruebas del mundo real antes de saltar a estos lanzamientos. El espacio de audio de IA se mueve rápido, pero la sustancia importa más que los anuncios. Hasta que veamos datos concretos de rendimiento, trátalos como lanzamientos de marcador de posición en lugar de herramientas listas para producción.
