AWS WorkSpaces : des agents MCP pilotent les apps desktop legacy via screenshots

AWS a ouvert Amazon WorkSpaces aux agents IA en preview cette semaine — donnant à n'importe quel framework d'agents compatible MCP, y compris LangChain, CrewAI et Strands Agents d'AWS, un desktop virtuel managé pour opérer des applications legacy via vision par ordinateur et simulation d'entrées. L'agent s'authentifie par IAM, se connecte à une instance WorkSpaces par URL pré-signée, et interagit comme un employé humain : screenshots, clics, frappe, défilement. L'application ciblée ne sait pas qu'un agent la pilote ; rien dans le logiciel n'a besoin d'être modifié. AWS a démontré le pattern avec un agent Strands sur Bedrock qui fait tourner un workflow de renouvellement d'ordonnance dans un système de pharmacie échantillon — recherche du patient, recherche du médicament, placement de la commande, confirmation du renouvellement — rien de tout ça via API.

L'architecture est plus intéressante que la démo. WorkSpaces expose un endpoint MCP managé comme plan de contrôle de l'agent, ce qui laisse au builder le choix du framework plutôt que de l'enfermer dans des runtimes AWS-natifs. La sécurité hérite du modèle WorkSpaces humain : instances isolées, identités IAM uniques par agent (pour que CloudTrail puisse distinguer les actions agentiques des actions humaines), observabilité CloudWatch, et capacités configurables par stack — résolution, format d'image, stockage des screenshots, activation des entrées clavier/souris. La réalité honnête du coût est la partie que la plupart des lectures vont rater : le benchmark récent de Reflex a montré qu'un agent vision a consommé environ 500 000 tokens d'input pour compléter une tâche qu'un agent API a réglée en 12 000 — un écart de 45×, avec l'agent vision qui a pris 17 minutes contre 20 secondes. Palash Awasthi chez Reflex l'a formulé clairement : « De meilleurs modèles vision réduisent le taux d'erreur par screenshot, mais ne réduisent pas le nombre de screenshots nécessaires pour atteindre les données pertinentes. »

La lecture écosystémique ici est sur deux pistes. AWS fait le pari que les 75 % d'organisations que Gartner a flaggées comme tournant encore sur des apps legacy sans API modernes — et les 71 % des Fortune 500 avec des processus critiques sur mainframe — choisiront un agent 45× plus cher plutôt qu'un projet de modernisation pluriannuel, parce que le calcul tient au pricing entreprise. La plomberie MCP compte plus que la marque WorkSpaces : c'est le premier endpoint MCP managé sous forme de desktop cloud, ce qui en fait le pendant côté cloud de Claude computer-use d'Anthropic et d'Operator d'OpenAI. Microsoft construit la même catégorie avec Windows 365 pour agents IA. Le goulet d'étranglement n'est plus de savoir si les agents peuvent piloter des GUI (Claude 3.5 Sonnet computer-use l'a montré fin 2024) ; c'est de savoir qui héberge le desktop sur lequel l'agent tourne. AWS vient de miser sur cette couche avec une porte d'entrée MCP.

Pour les builders qui déploient des agents dans des industries réglementées : le pattern IAM-par-agent, l'audit CloudTrail et le modèle d'instance isolée sont les morceaux à copier si tu construis ailleurs — les régulateurs voudront exactement cette trace, pas un récit de « fais confiance à l'agent ». Pour les builders qui évaluent computer-use vs intégration API : fais le calcul des tokens à ton échelle et selon la longueur de ton workflow. La route API à 20 secondes bat les agents vision à 17 minutes en coût quand une API existe ; sur des stacks legacy où la modernisation est un an de travail et sept chiffres, un agent 45× plus cher qui peut être livré la semaine prochaine est le choix rationnel. La preview est disponible dans US East (Virginie du Nord, Ohio), US West (Oregon), Canada Central, quatre régions européennes et cinq régions Asie-Pacifique, avec du code d'exemple sur GitHub.

AWS WorkSpaces : des agents MCP pilotent les apps desktop legacy via screenshots

Plus de nouvelles