Google 在 Cloud Next 2026 把第八代 TPU 分為訓練（TPU 8t）與推論（TPU 8i）兩款晶片：9,600 晶的訓練 pod 帶原生 FP4，1,152 晶的推論 pod 比 Ironwood 多 3 倍 SRAM

Google 在 Cloud Next 2026 揭曉第八代 TPU，帶來了傳了一年的架構轉向：把訓練與推論負載分到兩顆不同的晶片上。TPU 8t 負責訓練，TPU 8i 負責推論。各自針對其所處的那一半 AI 負載的具體瓶頸做優化——訓練要的是跨巨型 pod 的原始吞吐量與互連頻寬，推論要的是低延遲與自迴歸解碼中的存取局部性。

TPU 8t pod 是 9,600 晶，高於 Ironwood 的 9,216，透過 3D torus 網路互連。架構增量包括 SparseCore（加速稀疏運算子，MoE 模型的主導運算子）與原生 4 bit 浮點（緩解顯存頻寬壓力，提高每位元組顯存上的有效吞吐）。Google 的說法是：在大規模訓練上每美元效能是 Ironwood 的 2.7 倍，且比上一代每瓦效能翻倍。詳細的 FLOPS 與 HBM 規格尚未公開。

TPU 8i 才是更有意思的架構動作。pod 規模上限是 1,152 晶，經由一種新的互連拓撲 Boardfly ICI 實現。該晶的 SRAM 是 Ironwood 的三倍。這一設計選擇是為了把 KV cache 與激活留在晶片上，以降低自迴歸解碼的延遲。還有一個專為推論主導的 all-reduce 與 all-to-all 模式設計的 Collectives Acceleration Engine，Boardfly 把 all-to-all 通訊所需的跳數最多減少 50%。Google 對推論晶片的主張：在低延遲目標上每美元效能比 Ironwood 高 80%，比上一代每瓦效能翻倍。

對 builder 有兩點要記。其一，把訓練與推論在晶片層一分為二，是硬體層承認了過去兩年裡每一篇 LLM 服務論文都在講的那件事：prefill 與 decode、訓練與服務，其計算與顯存畫像不同，受益於不同的矽。Anthropic 與 Amazon 的 Trainium 協議（已部署百萬級晶、十年裡 5 千兆瓦）在 Amazon 自研矽上演繹的也是同一套邏輯。現在 Google 按同樣的方式分家。其二，同一週 Thinking Machines Lab 與 Google Cloud 達成數十億美元級、採購 NVIDIA GB300 的協議，是一個一致的訊號：Google 在同一朵雲裡既賣自研矽又賣 NVIDIA 的矽，因為客戶想要選擇權。自研矽贏的是利潤率，但還沒贏到排他性。

Google 在 Cloud Next 2026 把第八代 TPU 分為訓練（TPU 8t）與推論（TPU 8i）兩款晶片：9,600 晶的訓練 pod 帶原生 FP4，1,152 晶的推論 pod 比 Ironwood 多 3 倍 SRAM

更多新聞