Google 已把電腦操作變成 Gemini 3.5 Flash 內建的一項工具,這是其模型家族中快速且低成本的層級。藉此,開發者能打造可以看見螢幕上內容、對其進行推理,接著採取行動的代理,在瀏覽器、行動裝置與桌面環境中點擊、輸入與導覽。它現已透過 Gemini API 與 Gemini Enterprise Agent Platform 提供。

這項能力本身並非全新。直到現在,電腦操作都存在於一個獨立、單獨的 Gemini 2.5 computer use 模型中,是你以自己的端點來呼叫的東西。這裡的改變是放置的位置而非發明:把螢幕控制直接折進主力的 Flash 模型,Google 讓它成為多數人本就會優先使用的那個模型的預設能力,而不是擺在一旁的專用工具。

那個放置位置才是真正的看點,因為 Flash 是廉價、高用量的層級。電腦操作正是那種有用性取決於成本的功能,因為一個連續數小時操作軟體的代理會消耗大量 token。Google 把這項能力指向長時程與企業自動化,包括持續軟體測試以及橫跨各種專業應用程式的知識工作,也就是那些重複的多步驟工作,在這些工作裡讓一個便宜的模型來負責點擊,確實改變了成本結構。

值得留意的部分是 Google 與這項能力一同推出的東西。一個操作即時瀏覽器或真實桌面的代理,特別容易暴露於提示注入之下,也就是惡意網頁、電子郵件或文件把指令塞進代理所讀取的內容,並劫持其行為。Google 表示,它運用了針對性的對抗式訓練來強化 Gemini 3.5 Flash 對此的防禦,並釋出兩套可選的企業防護系統:一套在代理採取敏感操作前要求使用者明確確認,另一套在偵測到間接注入嘗試時自動停止任務。是防禦,而不只是能力,出現在同一則公告中。

誠實的解讀會兼顧兩件事。電腦操作代理在實務上仍然脆弱,在漫長的多步驟任務上的可靠性仍是困難、未解的部分,因此一項內建工具並不會讓代理本身變得可信。而那些防護機制是可選的附加項目,是以 Google 自家說法描述的,並非經獨立測試的保證。但這個組合本身就是訊號:在把螢幕操作變得更便宜的同時,為其最大的單一失效模式具名並推出一項防禦,是比單憑能力更為成熟地推進代理的方式,也提高了外界對競爭對手以同樣方式釋出相同東西的期待標準。