Google DeepMind a publié mardi un aperçu de recherche d'un pointeur de souris activé par IA et propulsé par Gemini — un curseur qui capture en temps réel le contexte visuel et sémantique autour de lui, qui laisse les utilisateurs parler en raccourci (« fix this », « compare these », « show me directions to that »), et qui transforme les zones de pixels sous le pointeur en entités structurées sur lesquelles Gemini peut agir. Deux démos sont en ligne dans Google AI Studio aujourd'hui : l'édition d'image au pointeur et la recherche de lieux sur carte. Une intégration plus profonde, Gemini dans Chrome, commence à se déployer aujourd'hui ; Magic Pointer pour Googlebook — la nouvelle gamme d'ordinateurs portables Gemini de Google annoncée cette semaine — arrive plus tard cette année. Le cadrage dans le billet DeepMind est révélateur : l'objectif n'est pas un nouvel assistant IA, c'est de supprimer le détour par la fenêtre IA qui sépare aujourd'hui les utilisateurs de leur vrai travail.

Le cœur technique tient dans les quatre principes que DeepMind expose. « Maintain the flow » est une prise de position contre les assistants en sidecar : le pointeur vit à la couche curseur de l'OS et est présent dans quel que soit l'outil dans lequel l'utilisateur travaille déjà. « Show and tell » traite l'état de survol du curseur et le contenu UI environnant comme des inputs structurés du modèle — comparable à la façon dont les modèles multimodaux combinent image et texte, sauf que la région visuelle est croppée et contextualisée dynamiquement, en temps réel, autour d'un curseur en mouvement. « Embrace 'this' and 'that' » porte explicitement sur le langage déictique : les humains disent naturellement « fix this » ou « move that here » quand ils peuvent pointer, et le système est conçu pour gérer cette classe d'instruction sans avoir à épeler ce que « this » désigne. « Turn pixels into actionable entities » est le plus substantiel sur le plan ML — une étape d'extraction d'entités au moment de l'inférence qui convertit les pixels bruts sous le curseur en objets typés et actionnables (un lieu, une date, un bloc de code, un ingrédient de recette) plutôt que de les laisser comme du contenu d'écran non structuré.

La lecture écosystémique tombe proprement contre la preview MCP-agent de WorkSpaces d'AWS plus tôt cette semaine. Les deux produits visent la même surface OS — la couche où l'IA accède à ce qui est à l'écran — mais font des hypothèses opposées sur qui est dans la boucle. AWS WorkSpaces donne à un agent autonome son propre desktop virtuel et le laisse opérer des applications legacy sans humain qui regarde ; le pointeur IA de Google garde l'humain au clavier et utilise le survol du curseur comme canal de contexte du prompt. Le problème d'infrastructure partagé est le même : les interfaces LLM text-in/text-out n'ont aucune conscience de l'état d'écran, alors les utilisateurs doivent sérialiser manuellement ce contexte dans un prompt écrit à chaque fois. Les deux solutions divergent sur la question de retirer l'humain de la boucle (AWS) ou retirer l'étape de sérialisation (Google). Pour le stack agent, cette distinction va déterminer où atterrissent les use cases — workflows nécessitant de l'autonomie sur des desktops hébergés style AWS, workflows augment-the-user dans des intégrations browser/OS comme Gemini dans Chrome.

Pour les builders : le déploiement de Gemini dans Chrome est la surface immédiate à explorer lundi matin. Si tu intègres des features IA dans des web apps, le pattern de pointeur déictique est une nouvelle affordance — au lieu d'une chat box, tu peux construire des interactions en supposant que l'utilisateur peut pointer n'importe quel élément et que le modèle le verra. L'inconnue intéressante est de savoir si DeepMind expose l'API de contexte de curseur sous-jacente à des extensions Chrome tierces, ou la garde Gemini-only. Les deux démos AI Studio (édition d'image, recherche de lieux) sont les bons endroits pour tester le paradigme cursor-as-context avant de décider quoi livrer ; le principe « Turn pixels into entities » est la partie à surveiller — quand le modèle peut promouvoir de façon fiable une région de pixels en objet typé, la couche de prompting de chaque web app commence à avoir une autre allure.