Google 把计算机操作能力塞进了廉价的 Gemini 模型，并顺带捆绑了对抗提示注入的防御机制, Zubnet AI 新闻

Google 已把计算机操作变成了 Gemini 3.5 Flash 内部的一个内置工具。Gemini 3.5 Flash 是其模型家族中快速且低成本的一档。借助它，开发者可以构建能够看到屏幕上内容、对其进行推理，然后采取行动的智能体，在浏览器、移动端和桌面环境中点击、输入并导航。该能力现已通过 Gemini API 和 Gemini Enterprise Agent Platform 提供。

这项能力本身并不算全新。在此之前，计算机操作存在于一个独立的、单独的 Gemini 2.5 计算机操作模型中，作为自己的端点来调用。这里的变化在于落点，而非发明：通过把屏幕操控直接折叠进主力的 Flash 模型，Google 让它成为大多数人本就会优先选用的那个模型的默认能力，而不是搁在一旁的专用工具。

这个落点才是真正的看点，因为 Flash 是廉价、高用量的那一档。计算机操作恰恰是那种实用性取决于成本的功能，因为一个连续数小时操控软件的智能体会消耗大量 token。Google 把这项能力指向长周期和企业级自动化，包括持续软件测试以及跨专业应用的知识工作，正是那些重复的多步骤任务，让一个廉价模型来负责点击，确实改变了经济账。

值得留意的部分，是 Google 与这项能力一同推出的东西。操作实时浏览器或真实桌面的智能体格外容易受到提示注入的威胁，恶意网页、邮件或文档会把指令塞进智能体所读取的内容里，从而劫持其行为。Google 表示，它使用了针对性的对抗训练来强化 Gemini 3.5 Flash 抵御这类威胁，并发布了两套可选的企业级防护系统：一套在智能体执行敏感操作前要求用户明确确认，另一套在检测到间接注入企图时自动停止任务。在同一份公告中给出的是防御，而不只是能力。

诚实的解读要兼顾两点。计算机操作智能体在实践中仍然脆弱，长链条、多步骤任务上的可靠性依然是棘手且尚未解决的难题，所以一个内置工具并不会让这些智能体本身变得可信。而且这些防护是可选的附加项，以 Google 自家的措辞描述，并非经过独立测试的保证。但这种组合才是信号：在让屏幕操控变得更廉价的同时，为其单一最大失效模式具名并发布一项防御，相比单凭能力推进，这是一种更成熟的推动智能体前行的方式，也抬高了对手被期待如何发布同类产品的门槛。

Google 把计算机操作能力塞进了廉价的 Gemini 模型，并顺带捆绑了对抗提示注入的防御机制

更多新闻