El puntero Gemini de DeepMind lee lo que está bajo tu cursor — "fix this" alcanza, Zubnet AI Noticias

Google DeepMind publicó el martes un avance de investigación de un puntero de mouse habilitado con IA y potenciado por Gemini — un cursor que captura en tiempo real el contexto visual y semántico a su alrededor, permite a los usuarios hablar en taquigrafía ("fix this", "compare these", "show me directions to that"), y convierte las regiones de píxeles bajo el puntero en entidades estructuradas sobre las que Gemini puede actuar. Dos demos están en vivo en Google AI Studio hoy: edición de imágenes con puntero y búsqueda de lugares en mapa. Una integración más profunda, Gemini en Chrome, comienza su rollout hoy; Magic Pointer para Googlebook — la nueva línea de laptops con Gemini de Google anunciada esta semana — llega más adelante este año. El encuadre en el blog de DeepMind lo delata: el objetivo no es un nuevo asistente de IA, es eliminar el desvío por la ventana de IA que actualmente se interpone entre los usuarios y su trabajo real.

El corazón técnico está en los cuatro principios que DeepMind plantea. "Maintain the flow" es una postura contra los asistentes en sidecar: el puntero vive en la capa de cursor del OS y está presente en cualquier herramienta donde el usuario ya esté trabajando. "Show and tell" trata el estado hover del cursor y el contenido UI circundante como inputs estructurados del modelo — comparable a cómo los modelos multimodales combinan imagen y texto, salvo que aquí la región visual se recorta y contextualiza dinámicamente, en tiempo real, alrededor de un cursor en movimiento. "Embrace 'this' and 'that'" trata explícitamente sobre el lenguaje deíctico: los humanos naturalmente decimos "fix this" o "move that here" cuando podemos señalar, y el sistema está diseñado para manejar esa clase de instrucción sin que tengamos que deletrear a qué se refiere "this". "Turn pixels into actionable entities" es el más sustantivo en términos ML — un paso de extracción de entidades en tiempo de inferencia que convierte los píxeles brutos bajo el cursor en objetos tipados y accionables (un lugar, una fecha, un bloque de código, un ingrediente de receta) en lugar de dejarlos como contenido de pantalla no estructurado.

La lectura ecosistémica cae limpiamente contra la preview MCP-agent de AWS WorkSpaces de principios de esta semana. Ambos productos pujan por la misma área OS — la capa donde la IA tiene acceso a lo que está en pantalla — pero hacen supuestos opuestos sobre quién está en el loop. AWS WorkSpaces le da a un agente autónomo su propio escritorio virtual y lo deja operar aplicaciones legacy sin un humano mirando; el puntero IA de Google mantiene al humano en el teclado y usa el hover del cursor como canal de contexto del prompt. El problema infraestructural compartido es el mismo: las interfaces LLM text-in/text-out no tienen conciencia del estado de pantalla, así que los usuarios tienen que serializar ese contexto manualmente en un prompt escrito cada vez. Las dos soluciones divergen sobre si quitar al humano del loop (AWS) o quitar el paso de serialización (Google). Para el stack de agentes, esa distinción va a determinar qué use cases aterrizan dónde — workflows que requieren autonomía sobre escritorios hosteados estilo AWS, workflows augment-the-user en integraciones browser/OS como Gemini en Chrome.

Para builders: el rollout de Gemini en Chrome es la superficie inmediata del lunes por la mañana para jugar. Si construyes features de IA en web apps, el patrón de puntero deíctico es una nueva affordance — en vez de una chat box, puedes construir interacciones asumiendo que el usuario puede señalar cualquier elemento y que el modelo lo verá. La incógnita interesante es si DeepMind expone la API subyacente de contexto de cursor a extensiones de Chrome de terceros, o la deja Gemini-only. Las dos demos en AI Studio (edición de imagen, búsqueda de lugares) son los lugares adecuados para sentir el paradigma cursor-as-context antes de decidir qué enviar; el principio "Turn pixels into entities" es la parte a vigilar — cuando el modelo pueda promover de manera confiable una región de píxeles a un objeto tipado, la capa de prompting de cada web app empieza a verse distinta.

El puntero Gemini de DeepMind lee lo que está bajo tu cursor — "fix this" alcanza

Más noticias