AWS 本週把 Amazon WorkSpaces 向 AI agent 開放了 preview——給任何相容 MCP 的 agent framework(包括 LangChain、CrewAI 以及 AWS 自家的 Strands Agents)一個託管虛擬桌面,透過電腦視覺與輸入模擬來操作遺留應用。agent 透過 IAM 認證,以預簽名 URL 連接到一台 WorkSpaces 實例,然後像人類員工一樣互動:截圖、點擊、鍵入、捲動。目標應用不知道是 agent 在驅動;軟體本身不需要任何修改。AWS 用一個跑在 Bedrock 上的 Strands agent 示範了這個模式——在一個藥房範例系統中走完續藥流程:查找病人、檢索藥品、下單、確認續藥——全程不走 API。
架構比這個 demo 更值得關注。WorkSpaces 把一個託管 MCP endpoint 暴露為 agent 的控制平面,讓 builder 自己選 framework,而不是被綁死在 AWS 原生 runtime 上。安全沿用人類 WorkSpaces 的模型:隔離實例、每個 agent 獨立的 IAM 身分(讓 CloudTrail 能區分 agent 操作與人類操作)、CloudWatch 可觀測性、按 stack 可配置的能力——解析度、影像格式、截圖儲存、鍵鼠輸入啟停。最容易被忽略的部分是誠實的成本現實:Reflex 最近的 benchmark 顯示一個視覺 agent 消耗大約 50 萬 input token 完成一項任務,API agent 用 1.2 萬就搞定——相差 45 倍,視覺 agent 花了 17 分鐘,API 路徑只用了 20 秒。Reflex 的 Palash Awasthi 講得很到位:「更好的視覺模型降低了每張截圖的錯誤率,但並沒有減少為了拿到相關資料所需的截圖數量。」
這裡的生態訊號有兩條線。AWS 押注的是:Gartner 標記的「75% 的組織仍在跑沒有現代 API 的遺留應用」,以及「71% 的財富 500 強在 mainframe 上跑關鍵流程沒有程式化存取」——這些客戶會選擇一個 45× 更貴的 agent,而不是多年的現代化專案,因為按企業定價來看帳確實算得過來。MCP 這一層水管的重要性超過 WorkSpaces 這個品牌:這是第一個以雲端桌面形態出現的託管 MCP endpoint,相當於 Anthropic Claude computer-use、OpenAI Operator 的雲端對照物。Microsoft 也在用 Windows 365 for AI agents 建同一個品類。瓶頸不再是 agent 能不能操作 GUI(Claude 3.5 Sonnet computer-use 在 2024 年底就證明了),而是由誰來託管 agent 跑的那個桌面。AWS 用一個 MCP 前門競爭了這一層。
對在受監管行業部署 agent 的 builder:per-agent IAM 模式、CloudTrail 稽核、隔離實例模型——如果你在別處建構,這些是要照抄的部分,監管者要的就是這種軌跡,而不是「相信這個 agent」的說辭。對評估 computer-use vs API 的 builder:在你的規模、你的流程長度下算清 token 帳。20 秒的 API 路徑在有 API 時比 17 分鐘的視覺 agent 便宜得多;在那些現代化需要一年和七位數美元的遺留 stack 上,下週就能上線的 45× 更貴的 agent 是理性選擇。preview 已在 US East(北維吉尼亞、俄亥俄)、US West(奧勒岡)、Canada Central、四個歐洲區域、五個亞太區域開放,GitHub 上有範例程式碼。
