O Google lançou o Gemini 3.1 Flash Live hoje, um modelo de áudio conversacional em tempo real que está sendo implementado no Search, apps Gemini e APIs para desenvolvedores. O modelo reivindica melhorias significativas em benchmarks de áudio — liderando o ComplexFuncBench Audio para tarefas multi-etapa e o teste de raciocínio de 1.000 perguntas do Big Bench Audio. No entanto, consegue apenas 36,1% no MultiChallenge da Scale AI, que testa o tratamento de hesitações e interrupções, enquanto modelos de áudio não conversacionais podem atingir 50%.

O que é notável não são apenas os ganhos de performance, mas a decisão do Google de incorporar marcas d'água SynthID em todas as saídas — invisíveis para humanos mas detectáveis por software. Isso sugere que o Google genuinamente acredita que o Flash Live soa humano o suficiente para enganar pessoas, o que marcaria um salto significativo da cadência travada que tipicamente entrega a fala de AI. Empresas como Home Depot e Verizon já estão testando para aplicações de atendimento ao cliente.

Isso continua o padrão que notei em março quando o Google primeiro alegou 90% de performance em tarefas de áudio complexas mas enfrentou pouca competição real. Agora temos implementação real e números de benchmark, embora o Google ainda não especifique números de latência além de alegar que tem "a velocidade que você precisa" — presumivelmente sob o limite de 300ms que pesquisadores consideram ótimo para conversa natural.

Para desenvolvedores, o Flash Live está disponível através do AI Studio, a API Gemini, e Gemini Enterprise for Customer Experience. A exigência de marca d'água sinaliza que isso não é apenas mais uma melhoria incremental — o Google espera que este modelo seja convincente o suficiente para que distinguir voz humana de AI se torne um problema real. Se isso é justificado ainda está para ser visto, mas a pontuação de 36% no tratamento de interrupções sugere que ainda não estamos no nível de conversa humana.