O Google revelou seus TPUs de oitava geração no Cloud Next 2026 com a mudança arquitetural que vinha sendo rumorada há um ano: dividir cargas de treinamento e inferência em chips separados. TPU 8t para treinamento, TPU 8i para inferência. Cada um é otimizado para os gargalos específicos de sua metade da carga de IA — treinamento quer throughput bruto e largura de banda de interconexão em pods gigantes, inferência quer latência e localidade de acesso à memória para decodificação autoregressiva.
Os pods TPU 8t são de 9.600 chips, acima dos 9.216 do Ironwood, conectados através de uma rede 3D torus. As adições arquiteturais são SparseCore (aceleração para operações esparsas, que dominam em modelos MoE) e ponto flutuante de quatro bits nativo (reduzindo pressão de largura de banda de memória e aumentando throughput efetivo por byte de memória). A reivindicação do Google é 2,7 vezes performance-por-dólar sobre Ironwood para treinamento em grande escala e 2 vezes performance-por-watt sobre a geração anterior. Números FLOPS detalhados e specs HBM ainda não são públicos.
TPU 8i é o movimento arquitetural mais interessante. O tamanho do pod máximo é 1.152 chips usando uma nova topologia de interconexão chamada Boardfly ICI. O chip tem três vezes a SRAM do Ironwood. A escolha de design é sobre manter cache KV e ativações on-chip para decodificação autoregressiva de baixa latência. Há um Collectives Acceleration Engine especificamente para os padrões all-reduce e all-to-all que dominam inferência, e Boardfly reduz os saltos necessários para comunicação all-to-all em até 50%. Reivindicação do Google para o chip de inferência: 80% perf-por-dólar sobre Ironwood em alvos de baixa latência, 2 vezes perf-por-watt sobre a geração anterior.
Duas coisas para registrar para builders. Um, a divisão treinamento-vs-inferência no nível de silício é o reconhecimento de hardware do que todo paper de serving LLM tem dito por dois anos: prefill e decode, treinamento e serving, têm perfis diferentes de compute e memória e se beneficiam de silício diferente. O acordo Amazon Trainium da Anthropic (1 milhão-plus chips deployados, 5 gigawatts na década) mostra a mesma lógica no silício da Amazon. Agora o Google está se dividindo do mesmo jeito. Dois, o acordo de múltiplos bilhões do Thinking Machines Lab com Google Cloud na mesma semana, para chips NVIDIA GB300, é o sinal consistente: o Google vende seu próprio silício e o silício da NVIDIA através do mesmo cloud, porque os clientes querem a opção. O silício custom está ganhando margem mas não exclusividade ainda.
