Google ha convertido el uso de computadora en una herramienta integrada dentro de Gemini 3.5 Flash, el nivel rapido y de bajo costo de su familia de modelos. Con ello, los desarrolladores pueden construir agentes que ven lo que hay en una pantalla, razonan sobre ello y luego actuan, haciendo clic, escribiendo y navegando a traves de entornos de navegador, movil y escritorio. Ya esta disponible a traves de la Gemini API y la Gemini Enterprise Agent Platform.
La capacidad en si no es completamente nueva. Hasta ahora, el uso de computadora residia en un modelo separado e independiente de uso de computadora de Gemini 2.5, algo que se invocaba como su propio endpoint. El cambio aqui es de ubicacion mas que de invencion: al integrar el control de pantalla directamente en el modelo principal Flash, Google lo convierte en una capacidad por defecto del modelo que la mayoria de la gente ya utiliza, en lugar de una herramienta especializada apartada.
Esa ubicacion es la verdadera noticia, porque Flash es el nivel barato y de alto volumen. El uso de computadora es justo el tipo de funcion cuya utilidad depende del costo, ya que un agente que controla software durante horas acumula muchos tokens. Google orienta la capacidad hacia la automatizacion de largo horizonte y empresarial, incluidas las pruebas de software continuas y el trabajo del conocimiento a traves de aplicaciones profesionales, esas tareas repetitivas de varios pasos donde que un modelo barato haga los clics realmente cambia la economia.
La parte que vale la pena observar es lo que Google lanzo junto con la capacidad. Un agente que opera un navegador en vivo o un escritorio real esta singularmente expuesto a la inyeccion de prompts, donde una pagina web, un correo o un documento malicioso cuela instrucciones en lo que el agente lee y secuestra su comportamiento. Google afirma que utilizo entrenamiento adversarial dirigido para reforzar Gemini 3.5 Flash contra esto, y libero dos sistemas de salvaguarda empresarial opcionales: uno que exige confirmacion explicita del usuario antes de que el agente realice una accion sensible, y otro que detiene de forma automatica una tarea si detecta un intento de inyeccion indirecta. Defensa, no solo capacidad, en el mismo anuncio.
La lectura honesta mantiene dos cosas a la vista. Los agentes de uso de computadora siguen siendo fragiles en la practica, y la fiabilidad en tareas largas de varios pasos sigue siendo la parte dificil y no resuelta, asi que una herramienta integrada no hace que los agentes en si sean confiables. Y las salvaguardas son complementos opcionales descritos en los propios terminos de Google, no garantias probadas de forma independiente. Pero la combinacion es la senal: abaratar el control de pantalla mientras se nombra y se lanza una defensa para su mayor modo de fallo es una manera mas madura de hacer avanzar a los agentes que la capacidad por si sola, y eleva el liston de como se espera que los rivales lancen lo mismo.
