Google 在 Cloud Next 2026 把第八代 TPU 分为训练（TPU 8t）与推理（TPU 8i）两款芯片：9,600 芯的训练 pod 带原生 FP4，1,152 芯的推理 pod 比 Ironwood 多 3 倍 SRAM

Google 在 Cloud Next 2026 揭晓第八代 TPU，带来了传了一年的架构转向：把训练与推理负载分到两颗不同的芯片上。TPU 8t 负责训练，TPU 8i 负责推理。各自针对其所处的那一半 AI 负载的具体瓶颈做优化——训练要的是跨巨型 pod 的原始吞吐量与互连带宽，推理要的是低延迟与自回归解码中的访存局部性。

TPU 8t pod 是 9,600 芯，高于 Ironwood 的 9,216，通过 3D torus 网络互连。架构增量包括 SparseCore（加速稀疏算子，MoE 模型的主导算子）与原生 4 bit 浮点（缓解显存带宽压力，提高每字节显存上的有效吞吐）。Google 的说法是：在大规模训练上每美元性能是 Ironwood 的 2.7 倍，且比上一代每瓦性能翻倍。详细的 FLOPS 与 HBM 规格尚未公开。

TPU 8i 才是更有意思的架构动作。pod 规模上限是 1,152 芯，经由一种新的互连拓扑 Boardfly ICI 实现。该芯的 SRAM 是 Ironwood 的三倍。这一设计选择是为了把 KV cache 与激活留在片上，以降低自回归解码的延迟。还有一个专为推理主导的 all-reduce 与 all-to-all 模式设计的 Collectives Acceleration Engine，Boardfly 把 all-to-all 通信所需的跳数最多减少 50%。Google 对推理芯片的主张：在低延迟目标上每美元性能比 Ironwood 高 80%，比上一代每瓦性能翻倍。

对 builder 有两点要记。其一，把训练与推理在芯片层一分为二，是硬件层承认了过去两年里每一篇 LLM 服务论文都在讲的那件事：prefill 与 decode、训练与服务，其计算与显存画像不同，受益于不同的硅。Anthropic 与 Amazon 的 Trainium 协议（已部署百万级芯、十年里 5 千兆瓦）在 Amazon 自研硅上演绎的也是同一套逻辑。现在 Google 按同样的方式分家。其二，同一周 Thinking Machines Lab 与 Google Cloud 达成数十亿美元级、采购 NVIDIA GB300 的协议，是一个一致的信号：Google 在同一朵云里既卖自研硅又卖 NVIDIA 的硅，因为客户想要选择权。自研硅赢的是利润率，但还没赢到排他性。

Google 在 Cloud Next 2026 把第八代 TPU 分为训练（TPU 8t）与推理（TPU 8i）两款芯片：9,600 芯的训练 pod 带原生 FP4，1,152 芯的推理 pod 比 Ironwood 多 3 倍 SRAM

更多新闻