Google a dévoilé ses TPUs 8e génération à Cloud Next 2026 avec le shift architectural qui était rumoré depuis un an : séparer les charges d'entraînement pis d'inférence en puces distinctes. TPU 8t pour l'entraînement, TPU 8i pour l'inférence. Chacun est optimisé pour les goulots spécifiques à sa moitié de la charge IA — l'entraînement veut du throughput brut pis de la bande passante d'interconnexion à travers des pods géants, l'inférence veut de la latence pis de la localité d'accès mémoire pour le décodage autoregressif.
Les pods TPU 8t sont de 9 600 puces, en hausse depuis les 9 216 d'Ironwood, connectés à travers un réseau 3D torus. Les ajouts architecturaux sont SparseCore (accélération pour les ops sparses, qui dominent dans les modèles MoE) pis le flottant 4 bits natif (réduisant la pression de bande passante mémoire pis augmentant le throughput effectif par octet mémoire). La revendication de Google est 2,7 fois la performance-par-dollar versus Ironwood pour l'entraînement à grande échelle pis 2 fois la performance-par-watt versus la génération précédente. Les chiffres FLOPS détaillés pis les specs HBM ne sont pas publics encore.
TPU 8i est le mouvement architectural plus intéressant. La taille de pod plafonne à 1 152 puces utilisant une nouvelle topologie d'interconnexion appelée Boardfly ICI. La puce a trois fois la SRAM d'Ironwood. Le choix de design est à propos de garder le cache KV pis les activations on-chip pour un décodage autoregressif à plus basse latence. Il y a un Collectives Acceleration Engine spécifiquement pour les patterns all-reduce pis all-to-all qui dominent l'inférence, pis Boardfly réduit les sauts requis pour la communication all-to-all jusqu'à 50 %. La revendication de Google pour la puce d'inférence : 80 % perf-par-dollar versus Ironwood à des cibles basse latence, 2 fois perf-par-watt versus la génération précédente.
Deux choses à enregistrer pour les builders. Un, la scission entraînement-versus-inférence au niveau silicium est la reconnaissance hardware de ce que chaque papier de service LLM dit depuis deux ans : prefill pis decode, entraînement pis service, ont des profils de compute pis de mémoire différents pis bénéficient de silicium différent. L'entente Amazon Trainium d'Anthropic (1 million-plus puces déployées, 5 gigawatts sur la décennie) montre la même logique sur le silicium Amazon. Maintenant Google se scinde de la même façon. Deux, l'entente de plusieurs milliards de dollars entre Thinking Machines Lab pis Google Cloud la même semaine, pour des puces NVIDIA GB300, est le signal cohérent : Google vend son propre silicium pis le silicium NVIDIA à travers le même cloud, parce que les clients veulent l'option. Le silicium custom gagne la marge mais pas l'exclusivité encore.
