Google DeepMind 周二发布了一个由 Gemini 驱动的 AI 鼠标指针的研究预览——这个光标实时捕获其周围的视觉和语义上下文,允许用户用简短指令说话("fix this"、"compare these"、"show me directions to that"),并把指针下方的像素区域转化为 Gemini 可以操作的结构化实体。今天在 Google AI Studio 上有两个 demo 上线:用指针编辑图片,以及在地图上查找地点。更深入的整合 Gemini in Chrome 今天开始 rollout;为 Googlebook(Google 本周宣布的新款 Gemini 笔电系列)准备的 Magic Pointer,年内交付。DeepMind 博客的措辞已经说明了一切:目标不是又一个 AI 助手,而是消除现在卡在用户和真实工作之间的那个 AI 窗口绕行。
技术核心在 DeepMind 列出的四条原则里。"Maintain the flow" 是反 sidecar 助手的立场:指针活在 OS 的光标层,在用户已经在用的任何工具里都在场。"Show and tell" 把光标 hover 状态以及周围 UI 内容当作结构化模型输入——类似于多模态模型如何同时处理图像和文本,只是这里的视觉区域是围绕移动中的光标实时动态裁剪和上下文化的。"Embrace 'this' and 'that'" 明确针对指示性语言:人在能指着东西时自然就会说"fix this"或"move that here",系统就是为了在不必逐字说明"this"指代什么的前提下处理这类指令而设计。"Turn pixels into actionable entities" 是四条里最有 ML 实质的——一个推理时的实体抽取步骤,把光标下的原始像素转化为有类型、可操作的对象(一个地点、一个日期、一段代码、一份配方原料),而不是让它们停留在未结构化的屏幕内容状态。
这里的生态信号干净地对位上本周早些时候 AWS WorkSpaces 的 MCP-agent preview。两个产品争夺的是同一块 OS 区域——AI 拿到屏幕内容的那一层——但对"谁在 loop 里"做了相反的假设。AWS WorkSpaces 把一个自主 agent 放进它自己的虚拟桌面,让它在没有人盯着的情况下操作遗留应用;Google 的 AI 指针把人留在键盘前,用光标 hover 作为 prompt 上下文的通道。共享的基础设施问题是同一个:text-in/text-out 的 LLM 接口对屏幕状态没有意识,所以用户每次都得把那个上下文手工序列化进一条写出来的 prompt。两个方案在"把人从 loop 里拿走(AWS)"和"把序列化这一步拿掉(Google)"之间分岔。对 agent stack 而言,这个区别会决定 use case 落在哪一端——需要自主性的工作流到 AWS 风格的托管桌面上,augment-the-user 的工作流到 Gemini in Chrome 这类浏览器/OS 级整合里。
对 builder:周一早晨能立刻摸的就是 Gemini in Chrome 的 rollout。如果你在 web app 里做 AI 功能,deictic-pointer 模式是一种新的 affordance——你不必再做 chat box,而是可以假设用户能指任意元素,模型能看到。最值得关注的未知数是 DeepMind 会不会把底层的"光标上下文 API"开放给第三方 Chrome 扩展,还是保持 Gemini-only。AI Studio 里的两个 demo(图片编辑、地点查找)是先感受 cursor-as-context 范式的合适入口,再决定要发什么;"Turn pixels into entities" 这一条是要盯的——当模型能可靠地把一块像素区域提升为一个有类型的对象时,每一个 web app 的 prompting 层都会开始呈现不同的样子。
