Google lanzó Gemini 3.1 Flash Live hoy, un modelo de audio conversacional en tiempo real que se está desplegando en Search, las apps de Gemini y las API para desarrolladores. El modelo afirma mejoras significativas en benchmarks de audio — superando ComplexFuncBench Audio para tareas de múltiples pasos y la prueba de razonamiento de 1,000 preguntas de Big Bench Audio. Sin embargo, solo logra 36.1% en MultiChallenge de Scale AI, que prueba el manejo de vacilaciones e interrupciones, mientras que los modelos de audio no conversacionales pueden alcanzar 50%.

Lo notable no son solo las mejoras de rendimiento, sino la decisión de Google de incorporar marcas de agua SynthID en todas las salidas — invisibles para humanos pero detectables por software. Esto sugiere que Google genuinamente cree que Flash Live suena lo suficientemente humano como para engañar a la gente, lo que marcaría un salto significativo de la cadencia entrecortada que típicamente delata el habla de AI. Empresas como Home Depot y Verizon ya lo están probando para aplicaciones de servicio al cliente.

Esto continúa el patrón que noté en marzo cuando Google primero afirmó 90% de rendimiento en tareas de audio complejas pero enfrentó poca competencia real. Ahora tenemos despliegue real y números de benchmark, aunque Google aún no especifica cifras de latencia más allá de afirmar que tiene "la velocidad que necesitas" — presumiblemente bajo el umbral de 300ms que los investigadores consideran óptimo para conversación natural.

Para desarrolladores, Flash Live está disponible a través de AI Studio, la API de Gemini, y Gemini Enterprise for Customer Experience. El requisito de marca de agua señala que esto no es solo otra mejora incremental — Google espera que este modelo sea lo suficientemente convincente como para que distinguir voz humana de AI se convierta en un problema real. Si eso está justificado queda por verse, pero el puntaje de 36% en manejo de interrupciones sugiere que aún no estamos en el nivel de conversación humana.