Google reveló el TPU de 8a generación con un cambio estructural en cómo se organiza la familia de chips: TPU 8t para entrenamiento, TPU 8i para inferencia, dos productos de silicio distintos en lugar de uno de propósito general. El chip de entrenamiento reclama 3x el compute sobre la generación previa, con un solo superpod alcanzando 9.600 chips y dos petabytes de memoria de alto ancho de banda compartida, escalando casi linealmente a un millón de chips en un cluster local. El chip de inferencia apunta a 80% mejor desempeño por dólar, con hasta 288GB de memoria por chip — más que los 192GB del Blackwell B200 de NVIDIA y más de 3x los 80GB del Hopper H100. El framing que Google eligió es que los agentes tienen demandas cualitativamente distintas que la inferencia ML tradicional, y un solo chip optimizado para ambos termina comprometido en cada uno.
Las elecciones arquitectónicas que importan a los builders. El chip de inferencia 8i está optimizado para contextos largos y operaciones memory-heavy — la forma de workload que tienen los agentes modernos, donde el KV cache domina y el estado multi-turn vive en la memoria de trabajo. El ancho de banda de interconnect duplicado a 19,2 Tb/s apunta específicamente a modelos Mixture-of-Experts, donde el ruteo de experto crea patrones de comunicación all-to-all que estrangulan a las fabrics convencionales. La nueva topología Boardfly recorta el diámetro máximo de red en más de 50% vs la generación previa — esa es una mejora a nivel de topología que ayuda tanto a las colectivas de entrenamiento como al paralelismo de inferencia. Los 121 ExaFlops del chip de entrenamiento 8t en un solo superpod significan que el entrenamiento de modelos frontier baja de meses a semanas a nivel per-cluster. Dos petabytes de HBM compartida a escala de superpod es lo que habilita el entrenamiento de modelos con residencia on-chip de parámetros para los backbones densos más grandes — los modelos clase-Gemini que se entrenan hoy no entrarían a escala en generaciones TPU previas sin overhead agresivo de sharding.
La lectura ecosystem se empareja con dos threads de antes esta semana. Astera Labs Scorpio shipeó fabric memory-semantic open-standard para clusters de entrenamiento no-NVIDIA; el TPU 8a gen de Google es la contra-dirección cerrada — silicio de entrenamiento integrado verticalmente más silicio de inferencia más interconnect más topología, todos diseñados juntos. El split entre chips de entrenamiento e inferencia espeja lo que NVIDIA no ha hecho del todo todavía (B200 + Spectrum-X son workload-flexibles por diseño) y lo que AMD se aproxima con las variantes MI300X/MI325X pero más sueltamente. Para builders consumiendo Google Cloud TPU, la implicación práctica es que vas a pickear tier de training vs inference explícitamente de aquí en adelante — el mismo checkpoint corre en ambos pero a perfiles de eficiencia distintos. Para builders consumiendo GCP vía APIs de inferencia (Vertex, Gemini), la cifra 80%-mejor-perf-por-dólar en 8i fluye al pricing per-token de alguna forma. Para builders evaluando closed-frontier vs neocloud-en-AMD, las specs de TPU cambian el cálculo closed-frontier — la stack vertical de Google ahora está significativamente adelante en memoria de inferencia y topología MoE, que es la forma de workload donde viven los agentes clase Gemini/PaLM.
Movida práctica: si corrés inferencia a escala en Google Cloud, planeá una eval de TPU 8i cuando shipea — 288GB de memoria por chip cambia lo que podés tener en cache y qué context lengths entran sin paging. Si entrenás tus propios modelos y consumís pods TPU, la economía del cluster 8t va a ser distinta — modelá tus costos al nuevo ratio ExaFlops/$ y chequeá si pulls de entrenamiento más largos-pero-más-baratos o más cortos-pero-más-caros se vuelven más atractivos. Para builders no en GCP, la señal relevante es presión competitiva: Rubin de próxima gen de NVIDIA y MI400 de AMD shipean más tarde este año, y el split silicio inference-vs-training va a ser la conversación arquitectónica a la que esos lanzamientos responden. Memoria por chip es la línea a vigilar — 288GB pone un nuevo piso para lo que builders deberían esperar a escala de inferencia para mediados de 2027.
