Google 在 Cloud Next 2026 揭曉第八代 TPU,帶來了傳了一年的架構轉向:把訓練與推論負載分到兩顆不同的晶片上。TPU 8t 負責訓練,TPU 8i 負責推論。各自針對其所處的那一半 AI 負載的具體瓶頸做優化——訓練要的是跨巨型 pod 的原始吞吐量與互連頻寬,推論要的是低延遲與自迴歸解碼中的存取局部性。

TPU 8t pod 是 9,600 晶,高於 Ironwood 的 9,216,透過 3D torus 網路互連。架構增量包括 SparseCore(加速稀疏運算子,MoE 模型的主導運算子)與原生 4 bit 浮點(緩解顯存頻寬壓力,提高每位元組顯存上的有效吞吐)。Google 的說法是:在大規模訓練上每美元效能是 Ironwood 的 2.7 倍,且比上一代每瓦效能翻倍。詳細的 FLOPS 與 HBM 規格尚未公開。

TPU 8i 才是更有意思的架構動作。pod 規模上限是 1,152 晶,經由一種新的互連拓撲 Boardfly ICI 實現。該晶的 SRAM 是 Ironwood 的三倍。這一設計選擇是為了把 KV cache 與激活留在晶片上,以降低自迴歸解碼的延遲。還有一個專為推論主導的 all-reduce 與 all-to-all 模式設計的 Collectives Acceleration Engine,Boardfly 把 all-to-all 通訊所需的跳數最多減少 50%。Google 對推論晶片的主張:在低延遲目標上每美元效能比 Ironwood 高 80%,比上一代每瓦效能翻倍。

對 builder 有兩點要記。其一,把訓練與推論在晶片層一分為二,是硬體層承認了過去兩年裡每一篇 LLM 服務論文都在講的那件事:prefill 與 decode、訓練與服務,其計算與顯存畫像不同,受益於不同的矽。Anthropic 與 Amazon 的 Trainium 協議(已部署百萬級晶、十年裡 5 千兆瓦)在 Amazon 自研矽上演繹的也是同一套邏輯。現在 Google 按同樣的方式分家。其二,同一週 Thinking Machines Lab 與 Google Cloud 達成數十億美元級、採購 NVIDIA GB300 的協議,是一個一致的訊號:Google 在同一朵雲裡既賣自研矽又賣 NVIDIA 的矽,因為客戶想要選擇權。自研矽贏的是利潤率,但還沒贏到排他性。