T-Head da Alibaba enviou Zhenwu M890, um acelerador AI explicitamente enquadrado como construído para cargas de trabalho de agente — contexto longo, coordenação modelo-a-modelo em tempo real, execução de tarefa multi-passo com intervenção humana limitada. 3x de performance alegada sobre o predecessor Zhenwu 810E. T-Head reporta 560,000+ unidades Zhenwu enviadas até a data, 400+ clientes externos em 20 indústrias incluindo automotivo e serviços financeiros. Disponível através da plataforma Bailian da Alibaba Cloud; entrega em escala de rack no Panjiu AL128 (128 aceleradores M890 por rack). Roadmap: M890 agora, V900 Q3 2027 (outro ~3x esperado), J900 Q3 2028. A Alibaba simultaneamente lançou Qwen 3.7-Max — alegado operar continuamente por até 35 horas em tarefas de agente sem degradação de performance. Nó de processo, FLOPs, largura de banda de memória, e números de comparação com NVIDIA H100/H200 não divulgados no anúncio.
Silício agente-alvo agora é uma categoria de hardware discreta. A NVIDIA enviou Vera em 17 de maio — 88 núcleos Olympus, 1,2 TB/s de largura de banda de memória, o mesmo enquadramento "construído para agentes" — para Anthropic, OpenAI, SpaceXAI, e Oracle. A Alibaba envia Zhenwu M890 hoje com a mesma tese. A alegação técnica compartilhada: cargas agentic estressam diferentes partes do silício que inferência densa. Limitadas por largura de banda de memória (contexto longo, traços grandes de tool-call). Comunicação inter-acelerador rápida (coordenação multi-modelo). Rendimento sustentado por horas ao invés de segundos (o número de 35 horas de Qwen 3.7-Max). O empacotamento Panjiu AL128 — 128 aceleradores por rack — é a arquitetura do sistema para essa classe de carga: a coordenação em nível de rack é a unidade de implantação, não a inferência de cartão único. Os números concretos de implantação (560K unidades, 400+ clientes) colocam isto além do estágio piloto. O roadmap longo (V900 2027, J900 2028) é a aposta de que a demanda continua.
Leitura do ecossistema. Cada laboratório fronteira importante agora tem uma história de hardware para agentes. NVIDIA (Vera) → Anthropic/OpenAI/SpaceXAI/Oracle. Google (TPU mais a JV Blackstone, 500 MW até 2027) → acesso multi-nuvem de terceiros. Alibaba (Zhenwu M890 + Bailian + Panjiu AL128) → mercado empresarial chinês mais a base de clientes de 20 indústrias. O mercado de cargas de trabalho de agente é grande o suficiente para que as pilhas de silício verticalmente integradas façam sentido comercial. Para a China especificamente, a linha Zhenwu da Alibaba mais a trilha Huawei Ascend mais a capacidade de fabricação SMIC é a resposta de silício doméstico ao acordo H200 estagnado que cobrimos em 19 de maio — 750K GPUs H200 licenciadas a compradores chineses, zero enviadas, bloqueio do lado de Beijing. A Alibaba não precisa da NVIDIA se Zhenwu V900 pousar em Q3 2027 como prometido. Para builders dos EUA e EU considerando infraestrutura agentic, as pilhas de silício proprietário de código fechado estão convergindo no padrão Vera/Zhenwu/TPU. Alternativas de pilha aberta (AMD MI400, Intel Gaudi 3, ARM customizado) estão atrasadas na otimização específica para cargas de agente por enquanto.
Segunda-feira: se você está planejando capacidade de infraestrutura de agente, a pergunta relevante não é "quais FLOPs?" mas "como o rack se parece e quanto custa rodar cargas agentic de 35 horas?" O Panjiu AL128 sugere a resposta: a coordenação em nível de rack de 128 aceleradores é a unidade de implantação. Para builders com usuários finais chineses, Alibaba Cloud Bailian mais Zhenwu M890 é agora uma opção de produção real, não um piloto. Para builders dos EUA e EU, observe a próxima chamada de resultados da NVIDIA: com a receita China do H200 efetivamente em zero e Vera enviando a labs top, a flexibilidade de preços da NVIDIA em Vera vs Zhenwu M890 vai te dizer se a NVIDIA compete em preço de silício-agente ou se diferencia em ecossistema (CUDA, NCCL, integração MCP, referências de clientes Anthropic/OpenAI). Os próximos 12 meses são quando "silício agente-alvo" deixa de ser uma alegação de marketing e começa a ser uma linha de benchmark mensurável. Observe uma suite MLPerf ou equivalente para cargas de agente multi-hora sustentadas — essa é a lacuna de eval agora mesmo, e o vendor que vence o benchmark vence o ciclo de aquisição.
