Google lanzó Gemini 3.1 Flash TTS con "etiquetas de audio" que permiten a los desarrolladores controlar el estilo vocal, ritmo y entrega a través de comandos en lenguaje natural integrados en el texto. El modelo soporta más de 70 idiomas, incluye marcas de agua SynthID, y obtuvo 1,211 puntos en el ranking TTS de Artificial Analysis. Se está implementando en vista previa a través de la API Gemini, Google AI Studio, Vertex AI y Google Vids.

El lanzamiento del TTS se siente incremental — las etiquetas de audio son esencialmente prompt engineering para síntesis de voz, no un avance fundamental. Más interesante es cómo esto encaja en la estrategia más amplia de Gemini 3 de Google. Mientras agregan características a modelos especializados como TTS, la acción real está en Flash Lite, su modelo general más barato y rápido que está reformando la economía de la IA de alto volumen. Google claramente está segmentando: razonamiento premium con Pro, rendimiento balanceado con Flash, y ahora precios mínimos con Flash Lite.

Lo que el anuncio de Google minimiza es la complejidad creciente en su estructura de precios. Como otras fuentes notan, Gemini ahora tiene cinco modelos a través de tres niveles de servicio con umbrales de tamaño de prompt — docenas de combinaciones de precios que hacen de la estimación de costos una pesadilla. El posicionamiento del "cuadrante más atractivo" para TTS suena bien, pero los desarrolladores necesitan calculadoras solo para entender sus facturas. Mientras tanto, las ventajas estructurales de costo de Flash Lite para 10M+ llamadas mensuales sugieren que Google está apostando por volumen sobre margen.

Para desarrolladores, las etiquetas TTS son útiles pero no revolucionarias — sigues ajustando prompts, solo con sintaxis diferente. La oportunidad más grande es Flash Lite para cargas de trabajo de alto rendimiento donde no necesitas razonamiento profundo. Pero presupuesta cuidadosamente: los precios multidimensionales de Google significan que tus costos pueden variar enormemente basándose en patrones de uso que podrías no anticipar.