Google 把電腦操作能力放進了它最便宜的 Gemini 模型，並同步搭配提示注入防禦一起推出, Zubnet AI 新聞

Google 已把電腦操作變成 Gemini 3.5 Flash 內建的一項工具，這是其模型家族中快速且低成本的層級。藉此，開發者能打造可以看見螢幕上內容、對其進行推理，接著採取行動的代理，在瀏覽器、行動裝置與桌面環境中點擊、輸入與導覽。它現已透過 Gemini API 與 Gemini Enterprise Agent Platform 提供。

這項能力本身並非全新。直到現在，電腦操作都存在於一個獨立、單獨的 Gemini 2.5 computer use 模型中，是你以自己的端點來呼叫的東西。這裡的改變是放置的位置而非發明：把螢幕控制直接折進主力的 Flash 模型，Google 讓它成為多數人本就會優先使用的那個模型的預設能力，而不是擺在一旁的專用工具。

那個放置位置才是真正的看點，因為 Flash 是廉價、高用量的層級。電腦操作正是那種有用性取決於成本的功能，因為一個連續數小時操作軟體的代理會消耗大量 token。Google 把這項能力指向長時程與企業自動化，包括持續軟體測試以及橫跨各種專業應用程式的知識工作，也就是那些重複的多步驟工作，在這些工作裡讓一個便宜的模型來負責點擊，確實改變了成本結構。

值得留意的部分是 Google 與這項能力一同推出的東西。一個操作即時瀏覽器或真實桌面的代理，特別容易暴露於提示注入之下，也就是惡意網頁、電子郵件或文件把指令塞進代理所讀取的內容，並劫持其行為。Google 表示，它運用了針對性的對抗式訓練來強化 Gemini 3.5 Flash 對此的防禦，並釋出兩套可選的企業防護系統：一套在代理採取敏感操作前要求使用者明確確認，另一套在偵測到間接注入嘗試時自動停止任務。是防禦，而不只是能力，出現在同一則公告中。

誠實的解讀會兼顧兩件事。電腦操作代理在實務上仍然脆弱，在漫長的多步驟任務上的可靠性仍是困難、未解的部分，因此一項內建工具並不會讓代理本身變得可信。而那些防護機制是可選的附加項目，是以 Google 自家說法描述的，並非經獨立測試的保證。但這個組合本身就是訊號：在把螢幕操作變得更便宜的同時，為其最大的單一失效模式具名並推出一項防禦，是比單憑能力更為成熟地推進代理的方式，也提高了外界對競爭對手以同樣方式釋出相同東西的期待標準。

Google 把電腦操作能力放進了它最便宜的 Gemini 模型，並同步搭配提示注入防禦一起推出

更多新聞