阿里 T-Head 出了 Zhenwu M890:一颗 AI 加速器,被明明白白定位为「为 agent 工作负载做的」—— 长上下文、模型间实时协同、多步任务在有限人类介入下执行。号称对前代 Zhenwu 810E 三倍性能。T-Head 披露 Zhenwu 系列至今累计出货 56 万+,客户 400+ 家,跨 20 个行业,包括汽车和金融服务。通过阿里云百炼(Bailian)平台向客户提供;rack 规模交付走 Panjiu AL128(每机柜 128 颗 M890)。路线图:M890 现在,V900 2027 年 Q3(再大概 3x),J900 2028 年 Q3。同时发了 Qwen 3.7-Max —— 号称在 agent 任务上能连续跑 35 小时不掉性能。制程节点、FLOPs、内存带宽、对 NVIDIA H100/H200 的对比数字,这次都没披露。

「为 agent 做的芯片」现在是一个独立的硬件门类了。NVIDIA 5 月 17 日端出 Vera —— 88 颗 Olympus 核心、1.2 TB/s 内存带宽,同样的「built for agents」叙事 —— 交付给 Anthropic、OpenAI、SpaceXAI、Oracle。阿里今天端出 Zhenwu M890,论点是一样的。共同的技术 claim:agentic 负载吃的是芯片的不同部分,跟 dense 推理不一样。受内存带宽限制(长上下文、大 tool-call 轨迹)。需要快的加速器间通信(多模型协同)。需要长时间维持吞吐(Qwen 3.7-Max 那个 35 小时的数字)。Panjiu AL128 这种封装 ——每机柜 128 颗 —— 就是这一类负载的系统架构:机柜级的协同才是部署单位,不是单卡推理。56 万片出货、400+ 客户,这些具体数字把它推过了 pilot 阶段。到 2028 年的长路线图,是押需求会持续下去。

生态怎么读。每一家主要 frontier lab 现在都有了一条 agent 硬件叙事。NVIDIA(Vera)→ Anthropic/OpenAI/SpaceXAI/Oracle。Google(TPU 加上跟 Blackstone 的 JV,2027 年 500 MW)→ 多云第三方接入。阿里(Zhenwu M890 + 百炼 + Panjiu AL128)→ 中国企业市场加 20 个行业的客户基数。agent 工作负载这个市场已经足够大,把 vertically-integrated 的芯片栈做出 business sense。对中国来说,阿里的 Zhenwu 这条线加上华为昇腾这条线、加上 SMIC 制造产能,就是对 5 月 19 日我们覆盖过的 H200 stalled 那笔交易(75 万张 H200 给中国买家批了,一张没运过去,卡在北京一侧)的国产硅回应。Zhenwu V900 如果 2027 Q3 按时落地,阿里就根本不需要 NVIDIA。对美国和欧洲在考虑 agentic 基础设施的 builder 来说,闭源专有芯片栈正在 Vera/Zhenwu/TPU 这个 pattern 上收敛。开放栈的替代(AMD MI400、Intel Gaudi 3、ARM-based custom),在 agent 工作负载的针对性优化上,目前还落后。

周一上手:如果你在做 agent 基础设施的容量规划,真正该问的不是「多少 FLOPs」,而是「机柜长什么样、跑 35 小时的 agentic 负载成本多少」。Panjiu AL128 给了答案的暗示:128 颗加速器在机柜层级协同,才是部署的单位。对终端用户在中国的 builder,阿里云百炼加上 Zhenwu M890 已经是一个真实的生产选项,不再是 pilot。对美国和欧洲的 builder,盯 NVIDIA 下一次财报会:H200 在中国的营收已经基本归零,Vera 在向头部 lab 出货,NVIDIA 在 Vera vs Zhenwu M890 上的定价灵活度,会告诉你 NVIDIA 是要在 agent-silicon 价格上打,还是要靠生态(CUDA、NCCL、MCP 集成、Anthropic / OpenAI 客户背书)做差异化。接下来 12 个月,就是「agent-targeted 芯片」从营销 claim 变成可衡量 benchmark 条目的时候。盯一下有没有人出 MLPerf 类似的、专门针对多小时持续 agent 工作负载的 benchmark 套件 —— 那是当前的 eval 缺口,谁先把这个 benchmark 拿下,谁就拿下下一轮采购。