Google a dévoilé le TPU 8e génération avec un changement structurel dans la façon dont la famille de chips est organisée : TPU 8t pour l'entraînement, TPU 8i pour l'inférence, deux produits silicium distincts au lieu d'une part général-purpose. La chip d'entraînement claim 3x de compute sur la génération précédente, avec un seul superpod atteignant 9 600 chips et deux pétabytes de mémoire haute-bandwidth partagée, scalant presque linéairement à un million de chips dans un cluster local. La chip d'inférence cible 80 % meilleure performance par dollar, avec jusqu'à 288GB de mémoire par chip — plus que les 192GB du Blackwell B200 de NVIDIA et plus de 3x les 80GB du Hopper H100. Le framing que Google a choisi, c'est que les agents ont des demandes qualitativement différentes du ML inference traditionnel, et une seule chip optimisée pour les deux finit compromise sur chaque.

Les choix architecturaux qui comptent pour les builders. La chip d'inférence 8i est optimisée pour les contextes longs et les opérations memory-heavy — la shape de workload que les agents modernes ont, où le KV cache domine et le state multi-turn vit dans la mémoire de travail. La bandwidth interconnect doublée à 19,2 Tb/s cible spécifiquement les modèles Mixture-of-Experts, où le routing d'expert crée des patterns de communication all-to-all qui étranglent les fabrics conventionnels. La nouvelle topologie Boardfly coupe le diamètre réseau maximum de plus de 50 % vs la génération précédente — c'est une amélioration au niveau topologie qui aide les collectives d'entraînement et le parallélisme d'inférence. Les 121 ExaFlops du chip d'entraînement 8t sur un seul superpod veulent dire que l'entraînement de modèles frontier descend de mois à semaines au niveau per-cluster. Deux pétabytes de HBM partagée à l'échelle du superpod, c'est ce qui permet l'entraînement de modèles avec résidence on-chip des paramètres pour les plus gros backbones dense — les modèles classe-Gemini entraînés aujourd'hui ne tiendraient pas à l'échelle sur les générations TPU précédentes sans overhead de sharding agressif.

La lecture ecosystem pair avec deux threads de plus tôt cette semaine. Astera Labs Scorpio a shippé du fabric memory-semantic open-standard pour les clusters d'entraînement non-NVIDIA ; le TPU 8e gén de Google est la contre-direction fermée — silicium d'entraînement vertically integrated plus silicium d'inférence plus interconnect plus topologie, tous designés ensemble. Le split entre les chips d'entraînement et d'inférence mirroir ce que NVIDIA n'a pas pleinement fait encore (B200 + Spectrum-X sont workload-flexibles par design) et ce qu'AMD approche avec les variantes MI300X/MI325X mais plus lâchement. Pour les builders qui consomment du Google Cloud TPU, l'implication pratique, c'est que tu vas picker le tier training vs inference explicitement going forward — le même checkpoint tourne sur les deux mais à des profils d'efficience différents. Pour les builders qui consomment GCP via APIs d'inférence (Vertex, Gemini), le chiffre 80 % meilleure perf-per-dollar sur 8i flow à travers le pricing per-token sous une certaine forme. Pour les builders qui évaluent closed-frontier vs neocloud-sur-AMD, les specs TPU changent le calcul closed-frontier — la stack verticale de Google est maintenant significativement en avance sur la mémoire d'inférence et la topologie MoE, qui est la shape de workload où les agents classe Gemini/PaLM vivent.

Move pratique : si tu fais tourner de l'inférence à l'échelle sur Google Cloud, planifie une éval TPU 8i quand ça ship — 288GB de mémoire par chip change ce que tu peux tenir en cache et quelles context lengths fit sans paging. Si tu entraînes tes propres modèles et consommes des pods TPU, l'économie du cluster 8t va être différente — model tes coûts au nouveau ratio ExaFlops/$ et check si des pulls d'entraînement plus longs-mais-moins-chers ou plus courts-mais-plus-chers deviennent plus attractifs. Pour les builders pas sur GCP, le signal pertinent est la pression compétitive : Rubin next-gen de NVIDIA et MI400 d'AMD shippent plus tard cette année, et le split silicium inference-vs-training va être la conversation architecturale à laquelle ces launches répondent. Mémoire par chip est la ligne à surveiller — 288GB pose un nouveau plancher pour ce que les builders devraient attendre à l'échelle d'inférence d'ici mi-2027.