AWS 本周把 Amazon WorkSpaces 向 AI agent 开放了 preview——给任何兼容 MCP 的 agent framework(包括 LangChain、CrewAI 以及 AWS 自家的 Strands Agents)一个托管虚拟桌面,通过计算机视觉与输入模拟来操作遗留应用。agent 通过 IAM 认证,以预签名 URL 连接到一台 WorkSpaces 实例,然后像人类员工一样交互:截图、点击、键入、滚动。目标应用不知道是 agent 在驱动;软件本身不需要任何修改。AWS 用一个跑在 Bedrock 上的 Strands agent 演示了这一模式——在一个药房示例系统中走完续药流程:查找病人、检索药品、下单、确认续药——全程不走 API。

架构比这个 demo 更值得关注。WorkSpaces 把一个托管 MCP endpoint 暴露为 agent 的控制平面,让 builder 自己选 framework,而不是被绑死在 AWS 原生 runtime 上。安全沿用人类 WorkSpaces 的模型:隔离实例、每个 agent 独立的 IAM 身份(让 CloudTrail 能区分 agent 操作与人类操作)、CloudWatch 可观测性、按 stack 可配置的能力——分辨率、图像格式、截图存储、键鼠输入启停。最容易被忽略的部分是诚实的成本现实:Reflex 最近的 benchmark 显示一个视觉 agent 消耗大约 50 万 input token 完成一项任务,API agent 用 1.2 万就搞定——相差 45 倍,视觉 agent 用了 17 分钟,API 路径只用了 20 秒。Reflex 的 Palash Awasthi 说得很到位:"更好的视觉模型降低了每张截图的错误率,但并没有减少为了拿到相关数据所需的截图数量。"

这里的生态信号有两条线。AWS 押注的是:Gartner 标记的"75% 的组织仍在跑没有现代 API 的遗留应用",以及"71% 的财富 500 强在 mainframe 上跑关键流程没有编程访问"——这些客户会选择一个 45× 更贵的 agent,而不是多年的现代化项目,因为按企业定价来看账确实算得过来。MCP 这一层水管的重要性超过 WorkSpaces 这个品牌:这是第一个以云桌面形态出现的托管 MCP endpoint,相当于 Anthropic Claude 计算机使用、OpenAI Operator 的云端对照物。Microsoft 也在用 Windows 365 for AI agents 建同一个品类。瓶颈不再是 agent 能不能操作 GUI(Claude 3.5 Sonnet 计算机使用在 2024 年底就证明了),而是由谁来托管 agent 跑的那个桌面。AWS 用一个 MCP 前门竞争了这一层。

对在受监管行业部署 agent 的 builder:per-agent IAM 模式、CloudTrail 审计、隔离实例模型——如果你在别处构建,这些是要照抄的部分,监管者要的就是这种轨迹,而不是"信任这个 agent"的说辞。对评估 computer-use vs API 的 builder:在你的规模、你的流程长度下算清 token 账。20 秒的 API 路径在有 API 时比 17 分钟的视觉 agent 便宜得多;在那些现代化需要一年和七位数美元的遗留 stack 上,下周就能上线的 45× 更贵的 agent 是理性选择。preview 已在 US East(北弗吉尼亚、俄亥俄)、US West(俄勒冈)、Canada Central、四个欧洲区域、五个亚太区域开放,GitHub 上有示例代码。