O Google revelou o TPU de 8a geração com uma mudança estrutural em como a família de chips é organizada: TPU 8t para treino, TPU 8i para inferência, dois produtos de silício distintos em vez de uma peça de propósito geral. O chip de treino reivindica 3x o compute sobre a geração anterior, com um único superpod atingindo 9.600 chips e dois petabytes de memória de alta largura de banda compartilhada, escalando quase linearmente para um milhão de chips num cluster local. O chip de inferência mira 80% melhor desempenho por dólar, com até 288GB de memória por chip — mais que os 192GB do Blackwell B200 da NVIDIA e mais de 3x os 80GB do Hopper H100. O framing que o Google escolheu é que agentes têm demandas qualitativamente diferentes da inferência ML tradicional, e um único chip otimizado para ambos acaba comprometido em cada um.
As escolhas arquiteturais que importam para builders. O chip de inferência 8i é otimizado para contextos longos e operações memory-heavy — a forma de workload que agentes modernos têm, onde o KV cache domina e o estado multi-turn vive na memória de trabalho. A largura de banda de interconnect dobrada a 19,2 Tb/s mira especificamente modelos Mixture-of-Experts, em que o roteamento de experts cria padrões de comunicação all-to-all que estrangulam fabrics convencionais. A nova topologia Boardfly corta o diâmetro máximo de rede em mais de 50% vs a geração anterior — essa é uma melhoria em nível de topologia que ajuda tanto coletivas de treino como paralelismo de inferência. Os 121 ExaFlops do chip de treino 8t em um único superpod significam que treinar modelos frontier cai de meses para semanas em nível per-cluster. Dois petabytes de HBM compartilhada em escala de superpod é o que habilita treinar modelos com residência on-chip de parâmetros para os maiores backbones densos — modelos classe-Gemini sendo treinados hoje não caberiam em escala em gerações de TPU anteriores sem overhead agressivo de sharding.
A leitura ecossistema combina com dois threads do começo desta semana. A Astera Labs Scorpio shipou fabric memory-semantic open-standard para clusters de treino não-NVIDIA; o TPU 8a gen do Google é a contra-direção fechada — silício de treino verticalmente integrado mais silício de inferência mais interconnect mais topologia, todos projetados juntos. O split entre chips de treino e inferência espelha o que a NVIDIA ainda não fez completamente (B200 + Spectrum-X são workload-flexíveis por design) e o que a AMD se aproxima com as variantes MI300X/MI325X mas mais frouxamente. Para builders consumindo Google Cloud TPU, a implicação prática é que você vai escolher tier de training vs inference explicitamente daqui pra frente — o mesmo checkpoint roda em ambos mas em perfis de eficiência diferentes. Para builders consumindo GCP via APIs de inferência (Vertex, Gemini), o número 80%-melhor-perf-por-dólar no 8i flui pelo pricing per-token de alguma forma. Para builders avaliando closed-frontier vs neocloud-em-AMD, as specs do TPU mudam o cálculo closed-frontier — a stack vertical do Google está agora significativamente à frente em memória de inferência e topologia MoE, que é a forma de workload onde agentes classe Gemini/PaLM vivem.
Movimento prático: se você roda inferência em escala em Google Cloud, planeje uma eval de TPU 8i quando shipar — 288GB de memória por chip muda o que você pode ter em cache e quais context lengths cabem sem paging. Se você treina seus próprios modelos e consome pods TPU, a economia do cluster 8t vai ser diferente — modele seus custos no novo ratio ExaFlops/$ e cheque se pulls de treino mais longos-mas-mais-baratos ou mais curtos-mas-mais-caros ficam mais atraentes. Para builders não no GCP, o sinal relevante é pressão competitiva: o Rubin de próxima geração da NVIDIA e o MI400 da AMD shipam mais tarde neste ano, e o split de silício inference-vs-training vai ser a conversa arquitetural a que esses lançamentos respondem. Memória por chip é a linha para vigiar — 288GB coloca um novo piso para o que builders devem esperar em escala de inferência até meados de 2027.
