TechCrunch周五报道Meta签署了购买数百万个Amazon Web Services Graviton CPU的协议,明确框定为代理AI工作负载容量,而不是模型训练或推理。此协议是在Meta 2026年2月与Nvidia签署独立Grace CPU协议之上的增加,该协议明确地将Meta基础设施路线图中的CPU与GPU解耦。Graviton需求面被独立报道佐证:两家大型AWS客户今年试图买断AWS 2026年全部Graviton实例容量。AWS拒绝了,理由是其他客户的需求。芯片行业的注意力三年来一直在GPU上。未来两年的故事将是CPU。

技术原因是机械的。模型前向传递在GPU上运行。代理工作流中的其他一切都在CPU上运行。这包括提示组装、工具调用、结果解析、跨多步推理链的状态跟踪、工具调用之间的编排、重试逻辑、日志记录,以及将模型输出绑定到代理下一步需要采取的任何操作的胶水代码。一个占用用户一分钟挂钟时间的代理任务,每一秒GPU推理可能涉及数百秒的CPU编排。随着代理成为主导的LLM部署模式,这个比率将瓶颈从matmul吞吐量移到CPU核心数量和单线程延迟。Graviton核心是基于ARM的、缓存重型的,定价远低于同等的Xeon或EPYC;它们正好是代理编排所需的工作负载配置。

商业画面吻合。截至2026年3月,AWS已部署140万个Trainium芯片,其中Project Rainier集中了50万个Trainium2,Graviton5代最近以192核心和180MB三级缓存发布。Meta同时运行Nvidia Grace(2026年2月协议)、AWS Graviton(本周)、Broadcom定制硅(2026年4月自定义AI处理器扩展)和自己的MTIA内部加速器。这种多样化就是信号。Meta不押注单一CPU供应商,因为Grace、Graviton、EPYC、Xeon和超大规模云厂商自定义硅之间的竞争动态仍然开放,Meta不想在推理和编排量再增长10倍时被单一供应商逼到墙角。Amazon在这幅图中的位置不寻常,因为它同时向直接竞争对手和Anthropic出售容量,而Anthropic本身刚从Amazon拿到250亿美元并附带云支出承诺。

对builders来说,实际解读很简单。如果你在架构代理系统,成本模型正在转移。GPU推理每token仍然最贵,但随着你添加工具调用、重试和复杂状态机,CPU编排时间可以主导总商品成本。在CPU丰富的实例与GPU偏向的实例上进行基准测试变得值得做而不是假设。其次,推理提供商格局将继续向同时具有CPU和GPU容量的供应商转移;像CoreWeave和Lambda这样的纯GPU商店历来为训练吞吐量优化,但现在正在专门构建CPU容量,因为代理工作负载需要它。第三,如果你的应用受代理编排瓶颈制约,你在CPU轴上可能比在GPU轴上有更多优化空间,因为基于ARM的云CPU很快变得便宜。2026年AI基础设施的故事不再是关于谁拥有最多的H100。它是关于谁建立了silicon和调度软件以在规模上运行代理,这是一个不同形状的问题。