AWS WorkSpaces deixa agentes MCP operar apps de desktop legacy via screenshots

A AWS abriu o Amazon WorkSpaces para agentes de IA em preview esta semana — dando a qualquer framework de agentes compatível com MCP, incluindo LangChain, CrewAI e os Strands Agents da própria AWS, um desktop virtual gerenciado para operar aplicações legacy via visão computacional e simulação de entrada. O agente se autentica via IAM, conecta a uma instância WorkSpaces por uma URL pré-assinada, e interage como um funcionário humano: tirando screenshots, clicando, digitando, rolando. A aplicação alvo não sabe que um agente está conduzindo; nada do software precisa ser modificado. A AWS demonstrou o padrão com um agente Strands no Bedrock rodando um fluxo de renovação de receita num sistema de farmácia de amostra — busca do paciente, busca da medicação, colocação do pedido, confirmação da renovação — tudo sem API.

A arquitetura é mais interessante que a demo. O WorkSpaces expõe um endpoint MCP gerenciado como plano de controle do agente, o que deixa a escolha do framework com o builder em vez de prendê-lo a runtimes AWS-nativos. A segurança herda o modelo dos WorkSpaces humanos: instâncias isoladas, identidades IAM únicas por agente (para que o CloudTrail distinga ações agênticas das humanas), observabilidade CloudWatch, e capacidades configuráveis por stack — resolução, formato de imagem, armazenamento de screenshots, habilitação de entrada. A realidade honesta de custo é o pedaço que a maioria das leituras vai perder: o benchmark recente da Reflex mostrou que um agente de visão consumiu cerca de 500 000 tokens de input para completar uma tarefa que um agente por API resolveu em 12 000 — uma diferença de 45×, com o agente de visão levando 17 minutos contra 20 segundos. Palash Awasthi da Reflex resumiu de forma clara: "Modelos de visão melhores reduzem a taxa de erro por screenshot, mas não reduzem o número de screenshots necessários para chegar aos dados relevantes."

A leitura ecossistêmica aqui vai por duas trilhas. A AWS aposta que os 75% das organizações que o Gartner marcou como ainda rodando apps legacy sem APIs modernas — e os 71% das Fortune 500 com processos críticos em mainframe — vão escolher um agente 45× mais caro a um projeto de modernização de vários anos, porque as contas fecham no pricing enterprise. O encanamento MCP importa mais que a marca WorkSpaces: este é o primeiro endpoint MCP gerenciado em formato de desktop cloud, o que o coloca como a contraparte cloud do computer-use do Claude da Anthropic e do Operator da OpenAI. A Microsoft constrói a mesma categoria com o Windows 365 para agentes de IA. O gargalo não é mais se agentes conseguem operar GUIs (Claude 3.5 Sonnet computer-use mostrou isso no fim de 2024); é quem hospeda o desktop onde o agente roda. A AWS acabou de apostar nessa camada com uma porta MCP.

Para builders implantando agentes em indústrias reguladas: o padrão IAM-por-agente, a auditoria CloudTrail e o modelo de instância isolada são as peças a copiar se você constrói em outro lugar — reguladores vão querer exatamente esse rastro, não um discurso de "confie no agente". Para builders avaliando computer-use vs integração via API: faça a conta de tokens na sua escala e na duração do seu fluxo. A rota via API de 20 segundos vence agentes de visão de 17 minutos em custo quando uma API existe; em stacks legacy onde modernizar é um ano de trabalho e sete dígitos, um agente 45× mais caro entregue na próxima semana é a escolha racional. A preview está disponível em US East (N. Virginia, Ohio), US West (Oregon), Canada Central, quatro regiões europeias e cinco regiões da Ásia-Pacífico, com código de exemplo no GitHub.

AWS WorkSpaces deixa agentes MCP operar apps de desktop legacy via screenshots

Mais notícias