O Google lançou o Gemini 3.1 Flash TTS com "tags de áudio" que permitem aos desenvolvedores controlar estilo vocal, ritmo e entrega através de comandos em linguagem natural embutidos no texto. O modelo suporta mais de 70 idiomas, inclui marcas d'água SynthID, e pontuou 1.211 no ranking TTS da Artificial Analysis. Está sendo lançado em preview através da API Gemini, Google AI Studio, Vertex AI e Google Vids.

O lançamento do TTS parece incremental — tags de áudio são essencialmente prompt engineering para síntese de voz, não um avanço fundamental. Mais interessante é como isso se encaixa na estratégia mais ampla do Gemini 3 do Google. Enquanto estão adicionando recursos a modelos especializados como TTS, a ação real está no Flash Lite, seu modelo geral mais barato e rápido que está reformulando a economia da IA de alto volume. O Google claramente está segmentando: raciocínio premium com Pro, performance equilibrada com Flash, e agora preços baixíssimos com Flash Lite.

O que o anúncio do Google minimiza é a complexidade crescente em seus preços. Como outras fontes notam, o Gemini agora tem cinco modelos em três níveis de serviço com limites de tamanho de prompt — dezenas de combinações de preços que tornam a estimativa de custos um pesadelo. O posicionamento do "quadrante mais atrativo" para TTS soa legal, mas desenvolvedores precisam de calculadoras só para entender suas contas. Enquanto isso, as vantagens estruturais de custo do Flash Lite para 10M+ chamadas mensais sugerem que o Google está apostando em volume ao invés de margem.

Para desenvolvedores, as tags TTS são úteis mas não revolucionárias — você ainda está ajustando prompts, só com sintaxe diferente. A oportunidade maior é o Flash Lite para cargas de trabalho de alta capacidade onde você não precisa de raciocínio profundo. Mas faça o orçamento com cuidado: os preços multidimensionais do Google significam que seus custos podem variar drasticamente baseados em padrões de uso que você pode não antecipar.