O Google transformou o uso de computador em uma ferramenta nativa dentro do Gemini 3.5 Flash, o nivel rapido e de baixo custo de sua familia de modelos. Com ela, desenvolvedores podem construir agentes que veem o que esta em uma tela, raciocinam sobre isso e entao agem, clicando, digitando e navegando em ambientes de navegador, celular e desktop. Ja esta disponivel por meio do Gemini API e do Gemini Enterprise Agent Platform.

O recurso em si nao e totalmente novo. Ate agora, o uso de computador vivia em um modelo separado e independente Gemini 2.5 de uso de computador, algo que voce chamava como seu proprio endpoint. A mudanca aqui e de posicionamento, nao de invencao: ao integrar o controle de tela diretamente no modelo Flash principal, o Google o torna um recurso padrao do modelo que a maioria das pessoas ja usa, em vez de uma ferramenta especializada deixada de lado.

Esse posicionamento e a verdadeira historia, porque o Flash e o nivel barato e de alto volume. O uso de computador e exatamente o tipo de recurso cuja utilidade depende do custo, ja que um agente que controla software por horas consome muitos tokens. O Google direciona o recurso para a automacao de longo horizonte e corporativa, incluindo testes continuos de software e trabalho intelectual em aplicativos profissionais, as tarefas repetitivas de multiplas etapas em que ter um modelo barato fazendo os cliques de fato muda a economia.

A parte que merece atencao e o que o Google lancou junto com o recurso. Um agente que opera um navegador ao vivo ou um desktop real fica excepcionalmente exposto a injecao de prompt, em que uma pagina web, e-mail ou documento malicioso insere instrucoes naquilo que o agente le e sequestra seu comportamento. O Google diz que usou treinamento adversarial direcionado para reforcar o Gemini 3.5 Flash contra isso, e lancou dois sistemas opcionais de salvaguarda corporativa: um que exige confirmacao explicita do usuario antes de o agente realizar uma acao sensivel, e outro que interrompe automaticamente uma tarefa se detecta uma tentativa de injecao indireta. Defesa, nao apenas recurso, no mesmo anuncio.

A leitura honesta mantem duas coisas em vista. Os agentes de uso de computador ainda sao frageis na pratica, e a confiabilidade em tarefas longas de multiplas etapas continua sendo a parte dificil e nao resolvida, entao uma ferramenta nativa nao torna os agentes em si confiaveis. E as salvaguardas sao complementos opcionais descritos nos proprios termos do Google, nao garantias testadas de forma independente. Mas a combinacao e o sinal: tornar o controle de telas mais barato enquanto se nomeia e se lanca uma defesa para seu maior ponto de falha e uma forma mais madura de impulsionar os agentes do que apenas o recurso sozinho, e eleva o nivel de como se espera que os rivais lancem a mesma coisa.