T-Head d'Alibaba a shippé Zhenwu M890, un accélérateur AI explicitly framed comme built pour des workloads agent — long context, coordination model-to-model real-time, exécution de tâche multi-step avec intervention humaine limitée. Claimed 3x performance sur le predecessor Zhenwu 810E. T-Head report 560,000+ unités Zhenwu shippées à ce jour, 400+ customers externes à travers 20 industries incluant automotive et financial services. Available à travers la plateforme Bailian d'Alibaba Cloud ; livraison rack-scale dans le Panjiu AL128 (128 accélérateurs M890 par rack). Roadmap : M890 maintenant, V900 Q3 2027 (autre ~3x expected), J900 Q3 2028. Alibaba a simultaneously sorti Qwen 3.7-Max — claimed opérer continuously jusqu'à 35 heures sur des agent tasks sans dégradation de performance. Process node, FLOPs, bande passante mémoire, et chiffres de comparaison NVIDIA H100/H200 pas divulgués dans l'annonce.

Le silicon agent-targeted est maintenant une catégorie hardware discrète. NVIDIA a shippé Vera le 17 mai — 88 cœurs Olympus, 1,2 TB/s de bande passante mémoire, le même framing « built for agents » — à Anthropic, OpenAI, SpaceXAI, et Oracle. Alibaba ship Zhenwu M890 aujourd'hui avec la même thèse. Le claim technique partagé : les workloads agentic stressent différentes parties du silicon que la dense inference. Memory-bandwidth bound (long context, large tool-call traces). Inter-accelerator communication rapide (coordination multi-modèle). Throughput sustained sur des heures plutôt que des secondes (le number 35 heures de Qwen 3.7-Max). Le packaging Panjiu AL128 — 128 accélérateurs par rack — c'est l'architecture système pour cette classe de workload : la coordination rack-level c'est l'unité de déploiement, pas l'inférence single-card. Les chiffres concrets de déploiement (560K unités, 400+ customers) mettent ça au-delà du pilot stage. La roadmap longue (V900 2027, J900 2028) c'est le bet sur la demande qui continue.

Read écosystème. Tous les majors frontier labs ont maintenant une story hardware pour les agents. NVIDIA (Vera) → Anthropic/OpenAI/SpaceXAI/Oracle. Google (TPU plus la JV Blackstone, 500 MW d'ici 2027) → accès multi-cloud third-party. Alibaba (Zhenwu M890 + Bailian + Panjiu AL128) → marché entreprise chinois plus la base customer 20-industries. Le marché des workloads agent est assez large pour que les stacks silicon vertically-integrated fassent du business sense. Pour la Chine spécifiquement, la ligne Zhenwu d'Alibaba plus la track Huawei Ascend plus la capacité de fabrication SMIC c'est la réponse domestic-silicon au deal H200 stalled qu'on a couvert le 19 mai — 750K GPUs H200 licenced à des buyers chinois, zéro shippé, block côté Beijing. Alibaba a pas besoin de NVIDIA si Zhenwu V900 land en Q3 2027 comme promis. Pour les builders US et EU qui considèrent de l'infra agentic, les stacks silicon proprietary closed-source convergent sur le pattern Vera/Zhenwu/TPU. Les alternatives open-stack (AMD MI400, Intel Gaudi 3, custom ARM-based) lag sur l'optimisation workload-agent-specific pour l'instant.

Lundi matin : si tu fais du capacity planning pour de l'infra agent, la question pertinente c'est pas « quels FLOPs ? » mais « à quoi le rack ressemble et combien ça coûte de rouler des workloads agentic 35 heures ? » Le Panjiu AL128 donne un hint de la réponse : la coordination rack-level 128-accélérateurs c'est l'unité de déploiement. Pour les builders avec des end-users chinois, Alibaba Cloud Bailian plus Zhenwu M890 c'est maintenant une option production réelle, pas un pilot. Pour les builders US et EU, watch le prochain earnings call de NVIDIA : avec le revenu Chine H200 effectivement à zéro et Vera qui ship aux top labs, la flexibilité de pricing de NVIDIA sur Vera vs Zhenwu M890 va te dire si NVIDIA compétitionne sur le prix du silicon-agent ou differentie sur l'écosystème (CUDA, NCCL, intégration MCP, références customer Anthropic/OpenAI). Les prochains 12 mois c'est quand « silicon agent-targeted » stop d'être un claim marketing et commence à être une benchmark line mesurable. Watch pour une suite MLPerf ou équivalente pour des workloads agent multi-heure sustained — c'est le gap d'eval right now, et le vendor qui win le benchmark win le cycle de procurement.