La infraestructura de IA no se parece en nada a la computación en la nube tradicional, aunque corra dentro de los mismos centros de datos. Una aplicación web convencional está limitada por CPU y es liviana en memoria — unos cuantos núcleos, unos pocos gigabytes de RAM, tal vez una base de datos modesta. Las cargas de trabajo de IA invierten ese perfil por completo. Entrenar un modelo de frontera como GPT-4 o Claude requiere miles de GPUs corriendo en paralelo durante semanas, conectadas por interconexiones ultrarrápidas (InfiniBand o NVLink) para poder sincronizar gradientes sin generar cuellos de botella. Las redes solas pueden costar más que los servidores en una configuración tradicional. Por eso empresas como NVIDIA, con sus sistemas DGX SuperPOD, y proveedores de nube como CoreWeave y Lambda Labs han construido negocios enteros alrededor de infraestructura GPU-first que se vería absurda en cualquier otro contexto.
La infraestructura de entrenamiento está dominada por un puñado de configuraciones de hardware. Las GPUs H100 y H200 de NVIDIA son los caballos de batalla, típicamente desplegadas en clusters de 8 por nodo (conectadas vía NVLink) con cientos o miles de nodos enlazados por redes InfiniBand. Google tiene sus TPU pods (v5e y v6), Amazon tiene chips Trainium, y Microsoft tiene su acelerador personalizado Maia — pero NVIDIA todavía controla aproximadamente el 80% del mercado de entrenamiento de IA. Del lado del software, frameworks de entrenamiento distribuido como DeepSpeed, Megatron-LM y PyTorch FSDP manejan las estrategias de paralelismo (paralelismo de datos, paralelismo de tensores, paralelismo de pipeline) que permiten que un modelo demasiado grande para una GPU se distribuya a través de un cluster entero. La orquestación típicamente corre sobre Kubernetes con scheduling consciente de GPUs, o Slurm para cargas de trabajo batch estilo HPC tradicional. Todo el stack — del silicio al scheduler — tiene que funcionar en concierto, y un solo nodo lento o enlace de red inestable puede hundir el rendimiento de una corrida de entrenamiento de mil GPUs.
Si el entrenamiento es un proyecto de construcción, la inferencia es una cocina de restaurante — se trata de throughput, latencia y costo por solicitud a escala. La infraestructura de inferencia tiene sus propias herramientas especializadas: vLLM y TensorRT-LLM para servir modelos de lenguaje grandes con técnicas como batching continuo y PagedAttention; Triton Inference Server para servicio multi-modelo; y herramientas de cuantización que reducen modelos de precisión de 16 bits a 4 bits para que quepan en hardware más barato. La economía es contundente: servir un modelo a precisión completa en H100s podría costar $3 por millón de tokens, pero correr una versión cuantizada en GPUs de consumo o chips de inferencia personalizados podría bajar eso a menos de $0.20. Empresas como Groq (con sus chips LPU), Cerebras (motores a escala de wafer) y SambaNova (arquitectura de flujo de datos) todas apuestan a que el hardware de inferencia dedicado eventualmente será más barato que las GPUs para servir modelos.
Para la mayoría de las organizaciones, la infraestructura de IA no es algo que se construye — es algo que se renta. Los hyperscalers (AWS, Azure, Google Cloud) ofrecen instancias GPU bajo demanda, y proveedores especializados como CoreWeave, Lambda y DataCrunch ofrecen mejores precios de GPU con menos extras. Los clusters de GPU on-premise solo tienen sentido a escala masiva: Meta opera más de 600,000 H100s, y el centro de datos de xAI en Memphis corre 100,000 GPUs bajo un solo techo. Por debajo de esa escala, la sobrecarga operacional de gestionar hardware GPU — lidiar con throttling térmico, fallos de GPU (las H100 fallan a aproximadamente 1–3% por año), actualizaciones de drivers y gestión de energía — raramente justifica el gasto de capital. La verdadera habilidad de infraestructura para la mayoría de los equipos no es construir clusters; es elegir el proveedor correcto, optimizar tamaños de batch, y saber cuándo usar un modelo más pequeño que corre en una sola GPU en lugar de lanzar hardware al problema.
El panorama de infraestructura está cambiando rápido. El silicio personalizado está proliferando — cada gran proveedor de nube ahora tiene o está construyendo sus propios chips de IA, persiguiendo los márgenes de NVIDIA. El hardware optimizado para inferencia se está separando del hardware de entrenamiento, porque los perfiles de carga de trabajo son muy diferentes. La inferencia en el edge está creciendo, con modelos corriendo en teléfonos (Neural Engine de Apple, Hexagon de Qualcomm) y laptops (NPU de Intel, XDNA de AMD) en lugar de en la nube. Y el auge de los agentes de IA — sistemas que hacen múltiples llamadas a modelos por tarea — está multiplicando la demanda de inferencia de maneras que están tensionando la capacidad actual. Las empresas que controlan la infraestructura de IA hoy controlan el ritmo del progreso en IA, que es exactamente por qué Microsoft, Google y Amazon están gastando cada uno más de $50 mil millones por año en centros de datos.