Google a lancé Gemini 3.1 Flash TTS, introduisant des balises audio granulaires qui donnent aux développeurs un contrôle précis sur la génération de parole AI grâce à des commandes en langage naturel. Le modèle a atteint un score Elo de 1 211 sur le classement TTS d'Artificial Analysis et prend en charge plus de 70 langues avec dialogue multi-locuteurs natif. Tout audio généré inclut un filigrane SynthID pour identifier le contenu généré par AI, répondant aux préoccupations croissantes concernant l'utilisation abusive des médias synthétiques.

Cette sortie signale la volonté de Google de se différencier dans l'espace TTS de plus en plus commoditisé. Alors que les concurrents se concentrent sur l'amélioration de la qualité brute, Google mise sur la contrôlabilité — permettant aux développeurs d'ajuster finement le style vocal, le rythme et la livraison sans ajustement complexe de paramètres. L'approche des balises audio reflète comment la génération d'images a évolué avec l'ingénierie de prompts, rendant potentiellement la génération de parole expressive accessible aux utilisateurs non techniques qui construisent des applications vocales.

L'écosystème plus large Gemini 3.1 révèle la stratégie de modèles fragmentée de Google. La documentation montre Gemini 3.1 Flash-Lite comme alternative économique avec des « niveaux de réflexion » élargis pour le contrôle du raisonnement, tandis que le 3.1 Pro principal cible les tâches créatives complexes. Cette approche à trois niveaux — Lite pour le volume, Flash pour la vitesse, Pro pour la complexité — suggère que Google apprend des erreurs de tarification d'OpenAI, mais crée une confusion potentielle pour les développeurs choisissant entre modèles.

Pour les développeurs, le gain immédiat est la simplicité de déploiement dans l'écosystème de Google — AI Studio pour le prototypage, Vertex AI pour l'entreprise, et intégration directe dans Google Vids. Cependant, le statut de préversion et l'historique de Google d'abandon de produits AI justifient la prudence. Le filigrane SynthID, bien qu'il réponde aux préoccupations éthiques, pourrait devenir un désavantage concurrentiel si d'autres fournisseurs offrent des alternatives sans filigrane.