DeepMind 的 Gemini 指標讀懂游標下的內容——「fix this」就夠了, Zubnet AI 新聞

Google DeepMind 週二發布了一個由 Gemini 驅動的 AI 滑鼠指標的研究預覽——這個游標即時捕捉其周圍的視覺與語意脈絡,讓使用者用簡短指令說話(「fix this」「compare these」「show me directions to that」),並把指標下方的像素區域轉化為 Gemini 能操作的結構化實體。今天在 Google AI Studio 上有兩個 demo 上線:用指標編輯圖片,以及在地圖上查找地點。更深入的整合 Gemini in Chrome 今天開始 rollout;為 Googlebook(Google 本週宣布的新款 Gemini 筆電系列)準備的 Magic Pointer,年內交付。DeepMind 部落格的措辭已說明一切:目標不是又一個 AI 助理,而是消除目前卡在使用者與實際工作之間的那個 AI 視窗繞行。

技術核心在 DeepMind 列出的四條原則裡。「Maintain the flow」是反 sidecar 助理的立場:指標活在 OS 的游標層,在使用者已經在用的任何工具裡都在場。「Show and tell」把游標 hover 狀態以及周圍 UI 內容當作結構化模型輸入——類似於多模態模型如何同時處理影像和文字,只是這裡的視覺區域是圍繞移動中的游標即時動態裁切和上下文化的。「Embrace 'this' and 'that'」明確針對指示性語言:人在能指著東西時自然就會說「fix this」或「move that here」,系統就是為了在不必逐字說明「this」指代什麼的前提下處理這類指令而設計。「Turn pixels into actionable entities」是四條裡最有 ML 實質的——一個推論時的實體抽取步驟,把游標下的原始像素轉化為有型別、可操作的物件(一個地點、一個日期、一段程式碼、一份食譜原料),而不是讓它們停留在未結構化的螢幕內容狀態。

這裡的生態訊號乾淨地對位上本週稍早 AWS WorkSpaces 的 MCP-agent preview。兩個產品爭奪的是同一塊 OS 區域——AI 拿到螢幕內容的那一層——但對「誰在 loop 裡」做了相反的假設。AWS WorkSpaces 把一個自主 agent 放進它自己的虛擬桌面,讓它在沒有人盯著的情況下操作遺留應用;Google 的 AI 指標把人留在鍵盤前,用游標 hover 作為 prompt 脈絡的通道。共享的基礎設施問題是同一個:text-in/text-out 的 LLM 介面對螢幕狀態沒有意識,所以使用者每次都得把那個脈絡手工序列化進一條寫出來的 prompt。兩個方案在「把人從 loop 裡拿走(AWS)」和「把序列化這一步拿掉(Google)」之間分岔。對 agent stack 而言,這個區別會決定 use case 落在哪一端——需要自主性的工作流到 AWS 風格的託管桌面上,augment-the-user 的工作流到 Gemini in Chrome 這類瀏覽器/OS 級整合裡。

對 builder:週一早晨能立刻摸的就是 Gemini in Chrome 的 rollout。如果你在 web app 裡做 AI 功能,deictic-pointer 模式是一種新的 affordance——你不必再做 chat box,而是可以假設使用者能指任意元素,模型能看到。最值得關注的未知數是 DeepMind 會不會把底層的「游標脈絡 API」開放給第三方 Chrome 擴充功能,還是保持 Gemini-only。AI Studio 裡的兩個 demo(圖片編輯、地點查找)是先感受 cursor-as-context 範式的合適入口,再決定要發什麼;「Turn pixels into entities」這一條是要盯的——當模型能可靠地把一塊像素區域提升為一個有型別的物件時,每一個 web app 的 prompting 層都會開始呈現不同的樣子。

DeepMind 的 Gemini 指標讀懂游標下的內容——「fix this」就夠了

更多新聞