Google 揭幕了第 8 代 TPU,芯片家族组织方式有结构性改变:TPU 8t 用于训练,TPU 8i 用于推理,两个不同的硅片产品取代了一个通用部件。训练芯片相对前一代 claim 3x 计算,单个超级 pod 达到 9,600 个芯片和两 PB 共享高带宽内存,在一个本地集群中几乎线性扩展到一百万芯片。推理芯片瞄准 80% 更好的每美元性能,每芯片最高 288GB 内存 — 比 NVIDIA Blackwell B200 的 192GB 多,比 Hopper H100 的 80GB 多 3 倍。Google 选择的 framing 是代理与传统 ML 推理有质上不同的要求,一个为两者优化的芯片在每方面都妥协。

对 builder 重要的架构选择。8i 推理芯片为长上下文和内存重度操作优化 — 现代代理的工作负载形状,KV cache 主导,多轮状态在工作内存中。19.2 Tb/s 双倍互连带宽专门针对 Mixture-of-Experts 模型,专家路由创建的全对全通信模式扼杀传统 fabrics。新 Boardfly 拓扑将最大网络直径相对前代减少 50% 以上 — 这是拓扑层面改进,既帮助训练集合也帮助推理并行。8t 训练芯片单超级 pod 上的 121 ExaFlops 意味着前沿模型训练在 per-cluster 级别从月降到周。在超级 pod 规模下两 PB 共享 HBM 是使得用最大密集 backbone 进行片上参数驻留训练成为可能的东西 — 今天训练的 Gemini 级模型在没有激进 sharding 开销的情况下不会在前几代 TPU 上规模化拟合。

生态读法与本周早些时候的两个线程相配。Astera Labs Scorpio ship 了用于非 NVIDIA 训练集群的开放标准内存语义 fabric;Google 的第 8 代 TPU 是闭源对位方向 — 垂直集成的训练硅 + 推理硅 + 互连 + 拓扑,全部一起设计。训练和推理芯片之间的拆分映射 NVIDIA 还没完全做的事(B200 + Spectrum-X 是按设计 workload-灵活的)以及 AMD 用 MI300X/MI325X 变体接近但更松散的事。对消费 Google Cloud TPU 的 builder,实际含义是你将明确选择 training tier 还是 inference tier — 同一 checkpoint 在两者上运行但效率配置不同。对通过推理 APIs(Vertex、Gemini)消费 GCP 的 builder,8i 上 80%-更好-每美元-性能数字以某种形式流向 per-token 定价。对评估闭源前沿 vs neocloud-on-AMD 的 builder,TPU 规格改变了闭源前沿的计算 — Google 的垂直 stack 现在在推理内存和 MoE 拓扑上有意义地领先,这是 Gemini/PaLM 级代理生活的工作负载形状。

实际动作:如果你在 Google Cloud 上规模化运行推理,在它发布时计划一个 TPU 8i 评估 — 每芯片 288GB 内存改变了你可以在缓存中保持什么以及什么上下文长度可以无分页地拟合。如果你训练自己的模型并消费 TPU pod,8t 集群经济学将不同 — 在新的 ExaFlops/$ 比率下建模成本,检查更长但更便宜或更短但更昂贵的训练 pull 是否变得更有吸引力。对不在 GCP 上的 builder,相关信号是竞争压力:NVIDIA 的下一代 Rubin 和 AMD 的 MI400 今年晚些时候发布,推理-vs-训练硅拆分将是这些发布响应的架构对话。每芯片内存是要看的线 — 288GB 为 builder 在 2027 年中期推理规模上应该期待什么设了一个新底线。