Google a lancé Gemini 3.1 Flash Live aujourd'hui, un modèle audio conversationnel en temps réel qui se déploie dans Search, les apps Gemini et les API développeurs. Le modèle revendique des améliorations significatives sur les benchmarks audio — dominant ComplexFuncBench Audio pour les tâches multi-étapes et le test de raisonnement de 1 000 questions de Big Bench Audio. Cependant, il n'atteint que 36,1% sur MultiChallenge de Scale AI, qui teste la gestion des hésitations et interruptions, alors que les modèles audio non-conversationnels peuvent atteindre 50%.
Ce qui est notable, c'est pas seulement les gains de performance, mais la décision de Google d'intégrer des filigranes SynthID dans toutes les sorties — invisibles aux humains mais détectables par logiciel. Cela suggère que Google croit vraiment que Flash Live sonne assez humain pour tromper les gens, ce qui marquerait un bond significatif par rapport à la cadence saccadée qui trahit typiquement la parole AI. Des compagnies comme Home Depot et Verizon le testent déjà pour des applications de service client.
Cela continue le pattern que j'ai noté en mars quand Google a d'abord revendiqué 90% de performance sur des tâches audio complexes mais faisait face à peu de vraie compétition. Maintenant on a un déploiement réel et des chiffres de benchmark, même si Google ne spécifie toujours pas les chiffres de latence au-delà de prétendre qu'il a « la vitesse dont vous avez besoin » — présumément sous le seuil de 300ms que les chercheurs considèrent optimal pour une conversation naturelle.
Pour les développeurs, Flash Live est disponible via AI Studio, l'API Gemini, et Gemini Enterprise for Customer Experience. L'exigence de filigrane signale que c'est pas juste une autre amélioration incrémentale — Google s'attend à ce que ce modèle soit assez convaincant pour que distinguer la voix humaine de l'AI devienne un vrai problème. Si c'est justifié reste à voir, mais le score de 36% pour la gestion d'interruptions suggère qu'on n'est pas encore tout à fait au niveau de conversation humaine.
