阿里 T-Head 出了 Zhenwu M890:一顆 AI 加速器,被明明白白定位為「為 agent 工作負載做的」—— 長上下文、模型間即時協同、多步任務在有限人類介入下執行。號稱對前代 Zhenwu 810E 三倍效能。T-Head 披露 Zhenwu 系列至今累計出貨 56 萬+,客戶 400+ 家,跨 20 個產業,包括汽車和金融服務。透過阿里雲百煉(Bailian)平台向客戶提供;rack 規模交付走 Panjiu AL128(每機櫃 128 顆 M890)。路線圖:M890 現在,V900 2027 年 Q3(再大概 3x),J900 2028 年 Q3。同時發了 Qwen 3.7-Max —— 號稱在 agent 任務上能連續跑 35 小時不掉效能。製程節點、FLOPs、記憶體頻寬、對 NVIDIA H100/H200 的對比數字,這次都沒披露。

「為 agent 做的晶片」現在是一個獨立的硬體門類了。NVIDIA 5 月 17 日端出 Vera —— 88 顆 Olympus 核心、1.2 TB/s 記憶體頻寬,同樣的「built for agents」敘事 —— 交付給 Anthropic、OpenAI、SpaceXAI、Oracle。阿里今天端出 Zhenwu M890,論點是一樣的。共同的技術 claim:agentic 負載吃的是晶片的不同部分,跟 dense 推論不一樣。受記憶體頻寬限制(長上下文、大 tool-call 軌跡)。需要快的加速器間通訊(多模型協同)。需要長時間維持吞吐(Qwen 3.7-Max 那個 35 小時的數字)。Panjiu AL128 這種封裝 ——每機櫃 128 顆 —— 就是這一類負載的系統架構:機櫃級的協同才是部署單位,不是單卡推論。56 萬片出貨、400+ 客戶,這些具體數字把它推過了 pilot 階段。到 2028 年的長路線圖,是押需求會持續下去。

生態怎麼讀。每一家主要 frontier lab 現在都有了一條 agent 硬體敘事。NVIDIA(Vera)→ Anthropic/OpenAI/SpaceXAI/Oracle。Google(TPU 加上跟 Blackstone 的 JV,2027 年 500 MW)→ 多雲第三方接入。阿里(Zhenwu M890 + 百煉 + Panjiu AL128)→ 中國企業市場加 20 個產業的客戶基數。agent 工作負載這個市場已經足夠大,把 vertically-integrated 的晶片棧做出 business sense。對中國來說,阿里的 Zhenwu 這條線加上華為昇騰這條線、加上 SMIC 製造產能,就是對 5 月 19 日我們覆蓋過的 H200 stalled 那筆交易(75 萬張 H200 給中國買家批了,一張沒運過去,卡在北京一側)的國產矽回應。Zhenwu V900 如果 2027 Q3 按時落地,阿里就根本不需要 NVIDIA。對美國和歐洲在考慮 agentic 基礎設施的 builder 來說,閉源專有晶片棧正在 Vera/Zhenwu/TPU 這個 pattern 上收斂。開放棧的替代(AMD MI400、Intel Gaudi 3、ARM-based custom),在 agent 工作負載的針對性最佳化上,目前還落後。

週一上手:如果你在做 agent 基礎設施的容量規劃,真正該問的不是「多少 FLOPs」,而是「機櫃長什麼樣、跑 35 小時的 agentic 負載成本多少」。Panjiu AL128 給了答案的暗示:128 顆加速器在機櫃層級協同,才是部署的單位。對終端使用者在中國的 builder,阿里雲百煉加上 Zhenwu M890 已經是一個真實的生產選項,不再是 pilot。對美國和歐洲的 builder,盯 NVIDIA 下一次財報會:H200 在中國的營收已經基本歸零,Vera 在向頭部 lab 出貨,NVIDIA 在 Vera vs Zhenwu M890 上的定價彈性,會告訴你 NVIDIA 是要在 agent-silicon 價格上打,還是要靠生態(CUDA、NCCL、MCP 整合、Anthropic / OpenAI 客戶背書)做差異化。接下來 12 個月,就是「agent-targeted 晶片」從行銷 claim 變成可衡量 benchmark 條目的時候。盯一下有沒有人出 MLPerf 類似的、專門針對多小時持續 agent 工作負載的 benchmark 套件 —— 那是當前的 eval 缺口,誰先把這個 benchmark 拿下,誰就拿下下一輪採購。