Google 揭幕了第 8 代 TPU,晶片家族組織方式有結構性改變:TPU 8t 用於訓練,TPU 8i 用於推理,兩個不同的矽晶片產品取代了一個通用部件。訓練晶片相對前一代 claim 3x 計算,單個超級 pod 達到 9,600 個晶片和兩 PB 共享高頻寬記憶體,在一個本地集群中幾乎線性擴展到一百萬晶片。推理晶片瞄準 80% 更好的每美元效能,每晶片最高 288GB 記憶體 — 比 NVIDIA Blackwell B200 的 192GB 多,比 Hopper H100 的 80GB 多 3 倍。Google 選擇的 framing 是代理與傳統 ML 推理有質上不同的要求,一個為兩者最佳化的晶片在每方面都妥協。
對 builder 重要的架構選擇。8i 推理晶片為長上下文和記憶體重度操作最佳化 — 現代代理的工作負載形狀,KV cache 主導,多輪狀態在工作記憶體中。19.2 Tb/s 雙倍互連頻寬專門針對 Mixture-of-Experts 模型,專家路由創建的全對全通訊模式扼殺傳統 fabrics。新 Boardfly 拓撲將最大網路直徑相對前代減少 50% 以上 — 這是拓撲層面改進,既幫助訓練集合也幫助推理並行。8t 訓練晶片單超級 pod 上的 121 ExaFlops 意味著前沿模型訓練在 per-cluster 級別從月降到週。在超級 pod 規模下兩 PB 共享 HBM 是使得用最大密集 backbone 進行晶片上參數駐留訓練成為可能的東西 — 今天訓練的 Gemini 級模型在沒有激進 sharding 開銷的情況下不會在前幾代 TPU 上規模化擬合。
生態讀法與本週早些時候的兩個線程相配。Astera Labs Scorpio ship 了用於非 NVIDIA 訓練集群的開放標準記憶體語義 fabric;Google 的第 8 代 TPU 是閉源對位方向 — 垂直整合的訓練矽 + 推理矽 + 互連 + 拓撲,全部一起設計。訓練和推理晶片之間的拆分映射 NVIDIA 還沒完全做的事(B200 + Spectrum-X 是按設計 workload-彈性的)以及 AMD 用 MI300X/MI325X 變體接近但更鬆散的事。對消費 Google Cloud TPU 的 builder,實際含義是你將明確選擇 training tier 還是 inference tier — 同一 checkpoint 在兩者上運行但效率配置不同。對透過推理 APIs(Vertex、Gemini)消費 GCP 的 builder,8i 上 80%-更好-每美元-效能數字以某種形式流向 per-token 定價。對評估閉源前沿 vs neocloud-on-AMD 的 builder,TPU 規格改變了閉源前沿的計算 — Google 的垂直 stack 現在在推理記憶體和 MoE 拓撲上有意義地領先,這是 Gemini/PaLM 級代理生活的工作負載形狀。
實際動作:如果你在 Google Cloud 上規模化運行推理,在它發布時計劃一個 TPU 8i 評估 — 每晶片 288GB 記憶體改變了你可以在快取中保持什麼以及什麼上下文長度可以無分頁地擬合。如果你訓練自己的模型並消費 TPU pod,8t 集群經濟學將不同 — 在新的 ExaFlops/$ 比率下建模成本,檢查更長但更便宜或更短但更昂貴的訓練 pull 是否變得更有吸引力。對不在 GCP 上的 builder,相關訊號是競爭壓力:NVIDIA 的下一代 Rubin 和 AMD 的 MI400 今年晚些時候發布,推理-vs-訓練矽拆分將是這些發布回應的架構對話。每晶片記憶體是要看的線 — 288GB 為 builder 在 2027 年中期推理規模上應該期待什麼設了一個新底線。
