TechCrunch週五報導Meta簽署了購買數百萬個Amazon Web Services Graviton CPU的協議,明確框定為代理AI工作負載容量,而不是模型訓練或推理。此協議是在Meta 2026年2月與Nvidia簽署獨立Grace CPU協議之上的增加,該協議明確地將Meta基礎設施路線圖中的CPU與GPU解耦。Graviton需求面被獨立報導佐證:兩家大型AWS客戶今年試圖買斷AWS 2026年全部Graviton實例容量。AWS拒絕了,理由是其他客戶的需求。晶片行業的注意力三年來一直在GPU上。未來兩年的故事將是CPU。
技術原因是機械的。模型前向傳遞在GPU上運行。代理工作流中的其他一切都在CPU上運行。這包括提示組裝、工具調用、結果解析、跨多步推理鏈的狀態追蹤、工具調用之間的編排、重試邏輯、日誌記錄,以及將模型輸出綁定到代理下一步需要採取的任何操作的膠水程式碼。一個佔用使用者一分鐘掛鐘時間的代理任務,每一秒GPU推理可能涉及數百秒的CPU編排。隨著代理成為主導的LLM部署模式,這個比率將瓶頸從matmul吞吐量移到CPU核心數量和單執行緒延遲。Graviton核心是基於ARM的、快取重型的,定價遠低於同等的Xeon或EPYC;它們正好是代理編排所需的工作負載配置。
商業畫面吻合。截至2026年3月,AWS已部署140萬個Trainium晶片,其中Project Rainier集中了50萬個Trainium2,Graviton5代最近以192核心和180MB三級快取發布。Meta同時運行Nvidia Grace(2026年2月協議)、AWS Graviton(本週)、Broadcom客製化矽(2026年4月自定義AI處理器擴展)和自己的MTIA內部加速器。這種多樣化就是信號。Meta不押注單一CPU供應商,因為Grace、Graviton、EPYC、Xeon和超大規模雲廠商自定義矽之間的競爭動態仍然開放,Meta不想在推理和編排量再增長10倍時被單一供應商逼到牆角。Amazon在這幅圖中的位置不尋常,因為它同時向直接競爭對手和Anthropic出售容量,而Anthropic本身剛從Amazon拿到250億美元並附帶雲支出承諾。
對builders來說,實際解讀很簡單。如果你在架構代理系統,成本模型正在轉移。GPU推理每token仍然最貴,但隨著你添加工具調用、重試和複雜狀態機,CPU編排時間可以主導總商品成本。在CPU豐富的實例與GPU偏向的實例上進行基準測試變得值得做而不是假設。其次,推理提供商格局將繼續向同時具有CPU和GPU容量的供應商轉移;像CoreWeave和Lambda這樣的純GPU商店歷來為訓練吞吐量優化,但現在正在專門建構CPU容量,因為代理工作負載需要它。第三,如果你的應用受代理編排瓶頸制約,你在CPU軸上可能比在GPU軸上有更多優化空間,因為基於ARM的雲CPU很快變得便宜。2026年AI基礎設施的故事不再是關於誰擁有最多的H100。它是關於誰建立了silicon和排程軟體以在規模上運行代理,這是一個不同形狀的問題。
