Google 已把计算机操作变成了 Gemini 3.5 Flash 内部的一个内置工具。Gemini 3.5 Flash 是其模型家族中快速且低成本的一档。借助它,开发者可以构建能够看到屏幕上内容、对其进行推理,然后采取行动的智能体,在浏览器、移动端和桌面环境中点击、输入并导航。该能力现已通过 Gemini API 和 Gemini Enterprise Agent Platform 提供。

这项能力本身并不算全新。在此之前,计算机操作存在于一个独立的、单独的 Gemini 2.5 计算机操作模型中,作为自己的端点来调用。这里的变化在于落点,而非发明:通过把屏幕操控直接折叠进主力的 Flash 模型,Google 让它成为大多数人本就会优先选用的那个模型的默认能力,而不是搁在一旁的专用工具。

这个落点才是真正的看点,因为 Flash 是廉价、高用量的那一档。计算机操作恰恰是那种实用性取决于成本的功能,因为一个连续数小时操控软件的智能体会消耗大量 token。Google 把这项能力指向长周期和企业级自动化,包括持续软件测试以及跨专业应用的知识工作,正是那些重复的多步骤任务,让一个廉价模型来负责点击,确实改变了经济账。

值得留意的部分,是 Google 与这项能力一同推出的东西。操作实时浏览器或真实桌面的智能体格外容易受到提示注入的威胁,恶意网页、邮件或文档会把指令塞进智能体所读取的内容里,从而劫持其行为。Google 表示,它使用了针对性的对抗训练来强化 Gemini 3.5 Flash 抵御这类威胁,并发布了两套可选的企业级防护系统:一套在智能体执行敏感操作前要求用户明确确认,另一套在检测到间接注入企图时自动停止任务。在同一份公告中给出的是防御,而不只是能力。

诚实的解读要兼顾两点。计算机操作智能体在实践中仍然脆弱,长链条、多步骤任务上的可靠性依然是棘手且尚未解决的难题,所以一个内置工具并不会让这些智能体本身变得可信。而且这些防护是可选的附加项,以 Google 自家的措辞描述,并非经过独立测试的保证。但这种组合才是信号:在让屏幕操控变得更廉价的同时,为其单一最大失效模式具名并发布一项防御,相比单凭能力推进,这是一种更成熟的推动智能体前行的方式,也抬高了对手被期待如何发布同类产品的门槛。