Google 在 Cloud Next 2026 揭晓第八代 TPU,带来了传了一年的架构转向:把训练与推理负载分到两颗不同的芯片上。TPU 8t 负责训练,TPU 8i 负责推理。各自针对其所处的那一半 AI 负载的具体瓶颈做优化——训练要的是跨巨型 pod 的原始吞吐量与互连带宽,推理要的是低延迟与自回归解码中的访存局部性。
TPU 8t pod 是 9,600 芯,高于 Ironwood 的 9,216,通过 3D torus 网络互连。架构增量包括 SparseCore(加速稀疏算子,MoE 模型的主导算子)与原生 4 bit 浮点(缓解显存带宽压力,提高每字节显存上的有效吞吐)。Google 的说法是:在大规模训练上每美元性能是 Ironwood 的 2.7 倍,且比上一代每瓦性能翻倍。详细的 FLOPS 与 HBM 规格尚未公开。
TPU 8i 才是更有意思的架构动作。pod 规模上限是 1,152 芯,经由一种新的互连拓扑 Boardfly ICI 实现。该芯的 SRAM 是 Ironwood 的三倍。这一设计选择是为了把 KV cache 与激活留在片上,以降低自回归解码的延迟。还有一个专为推理主导的 all-reduce 与 all-to-all 模式设计的 Collectives Acceleration Engine,Boardfly 把 all-to-all 通信所需的跳数最多减少 50%。Google 对推理芯片的主张:在低延迟目标上每美元性能比 Ironwood 高 80%,比上一代每瓦性能翻倍。
对 builder 有两点要记。其一,把训练与推理在芯片层一分为二,是硬件层承认了过去两年里每一篇 LLM 服务论文都在讲的那件事:prefill 与 decode、训练与服务,其计算与显存画像不同,受益于不同的硅。Anthropic 与 Amazon 的 Trainium 协议(已部署百万级芯、十年里 5 千兆瓦)在 Amazon 自研硅上演绎的也是同一套逻辑。现在 Google 按同样的方式分家。其二,同一周 Thinking Machines Lab 与 Google Cloud 达成数十亿美元级、采购 NVIDIA GB300 的协议,是一个一致的信号:Google 在同一朵云里既卖自研硅又卖 NVIDIA 的硅,因为客户想要选择权。自研硅赢的是利润率,但还没赢到排他性。
