Google a lancé Gemini 3.1 Flash TTS avec des « balises audio » qui permettent aux développeurs de contrôler le style vocal, le rythme et la livraison grâce à des commandes en langage naturel intégrées dans le texte. Le modèle supporte plus de 70 langues, inclut le filigrane SynthID, et a obtenu un score de 1 211 sur le classement TTS d'Artificial Analysis. Il est déployé en aperçu via l'API Gemini, Google AI Studio, Vertex AI et Google Vids.
La sortie du TTS semble incrémentale — les balises audio sont essentiellement du prompt engineering pour la synthèse vocale, pas une percée fondamentale. Ce qui est plus intéressant, c'est comment ça s'inscrit dans la stratégie plus large de Gemini 3 de Google. Pendant qu'ils ajoutent des fonctionnalités aux modèles spécialisés comme le TTS, la vraie action se trouve dans Flash Lite, leur modèle général le moins cher et le plus rapide qui redéfinit l'économie de l'IA à haut volume. Google segmente clairement : raisonnement premium avec Pro, performance équilibrée avec Flash, et maintenant tarification au plancher avec Flash Lite.
Ce que l'annonce de Google minimise, c'est la complexité croissante de leur tarification. Comme d'autres sources le notent, Gemini a maintenant cinq modèles sur trois niveaux de service avec des seuils de taille de prompt — des dizaines de combinaisons de prix qui rendent l'estimation des coûts un cauchemar. Le positionnement « quadrant le plus attrayant » pour le TTS sonne bien, mais les développeurs ont besoin de calculatrices juste pour comprendre leurs factures. Pendant ce temps, les avantages structurels de coût de Flash Lite pour 10M+ d'appels mensuels suggèrent que Google mise sur le volume plutôt que sur la marge.
Pour les développeurs, les balises TTS sont utiles mais pas révolutionnaires — vous ajustez toujours des prompts, juste avec une syntaxe différente. La plus grosse opportunité, c'est Flash Lite pour les charges de travail à haut débit où vous n'avez pas besoin de raisonnement profond. Mais budgétez soigneusement : la tarification multidimensionnelle de Google signifie que vos coûts peuvent varier énormément selon des patterns d'utilisation que vous pourriez pas anticiper.
