Google desveló sus TPUs de octava generación en Cloud Next 2026 con el cambio arquitectónico que se rumoreaba desde hace un año: dividir las cargas de entrenamiento e inferencia en chips separados. TPU 8t para entrenamiento, TPU 8i para inferencia. Cada uno está optimizado para los cuellos de botella específicos de su mitad de la carga de IA — el entrenamiento quiere throughput crudo y ancho de banda de interconexión a través de pods gigantes, la inferencia quiere latencia y localidad de acceso a memoria para decodificación autoregresiva.

Los pods TPU 8t son de 9.600 chips, arriba de los 9.216 de Ironwood, conectados a través de una red 3D torus. Las adiciones arquitectónicas son SparseCore (aceleración para operaciones sparse, que dominan en modelos MoE) y punto flotante de cuatro bits nativo (reduciendo la presión de ancho de banda de memoria y aumentando el throughput efectivo por byte de memoria). La reclamación de Google es 2,7 veces rendimiento-por-dólar sobre Ironwood para entrenamiento a gran escala y 2 veces rendimiento-por-vatio sobre la generación anterior. Los números FLOPS detallados y specs HBM aún no son públicos.

TPU 8i es el movimiento arquitectónico más interesante. El tamaño del pod tope en 1.152 chips usando una nueva topología de interconexión llamada Boardfly ICI. El chip tiene tres veces la SRAM de Ironwood. La elección de diseño es sobre mantener caché KV y activaciones on-chip para decodificación autoregresiva de baja latencia. Hay un Collectives Acceleration Engine específicamente para los patrones all-reduce y all-to-all que dominan la inferencia, y Boardfly reduce los saltos requeridos para comunicación all-to-all hasta en 50%. Reclamo de Google para el chip de inferencia: 80% perf-por-dólar sobre Ironwood en objetivos de baja latencia, 2 veces perf-por-vatio sobre la generación anterior.

Dos cosas que registrar para builders. Uno, la división entrenamiento-vs-inferencia al nivel silicio es el reconocimiento de hardware de lo que cada paper de servicio LLM ha estado diciendo por dos años: prefill y decode, entrenamiento y servicio, tienen perfiles diferentes de cómputo y memoria y se benefician de silicio diferente. El trato Amazon Trainium de Anthropic (1 millón-plus chips desplegados, 5 gigavatios en la década) muestra la misma lógica en silicio de Amazon. Ahora Google se divide de la misma manera. Dos, el trato multi-mil-millonario de Thinking Machines Lab con Google Cloud la misma semana, por chips NVIDIA GB300, es la señal consistente: Google vende su propio silicio y el silicio de NVIDIA a través del mismo cloud, porque los clientes quieren la opción. El silicio custom está ganando margen pero no exclusividad todavía.