Infraestructura de IA: Definición y significado — Wiki de IA

El stack completo de hardware, software y servicios requeridos para entrenar y desplegar modelos de IA a escala. Esto incluye GPUs y chips personalizados, centros de datos, redes, almacenamiento, plataformas de orquestación (Kubernetes, Slurm), frameworks de servicio de modelos (vLLM, TensorRT), y los proveedores de nube que empaquetan todo. La infraestructura de IA es donde el mundo abstracto de la arquitectura de modelos se encuentra con el mundo muy concreto de redes eléctricas y sistemas de enfriamiento.

Por qué importa

La infraestructura determina lo que es posible. La razón por la que solo un puñado de empresas puede entrenar modelos de frontera no es falta de ideas — es falta de infraestructura. Y la razón por la que la IA cuesta lo que cuesta para los usuarios finales se traza directamente a la disponibilidad de GPUs, capacidad de centros de datos y eficiencia de servicio de inferencia.

En profundidad

La infraestructura de IA no se parece en nada a la computación en la nube tradicional, aunque corra dentro de los mismos centros de datos. Una aplicación web convencional está limitada por CPU y es liviana en memoria — unos cuantos núcleos, unos pocos gigabytes de RAM, tal vez una base de datos modesta. Las cargas de trabajo de IA invierten ese perfil por completo. Entrenar un modelo de frontera como GPT-4 o Claude requiere miles de GPUs corriendo en paralelo durante semanas, conectadas por interconexiones ultrarrápidas (InfiniBand o NVLink) para poder sincronizar gradientes sin generar cuellos de botella. Las redes solas pueden costar más que los servidores en una configuración tradicional. Por eso empresas como NVIDIA, con sus sistemas DGX SuperPOD, y proveedores de nube como CoreWeave y Lambda Labs han construido negocios enteros alrededor de infraestructura GPU-first que se vería absurda en cualquier otro contexto.

El stack de entrenamiento

La infraestructura de entrenamiento está dominada por un puñado de configuraciones de hardware. Las GPUs H100 y H200 de NVIDIA son los caballos de batalla, típicamente desplegadas en clusters de 8 por nodo (conectadas vía NVLink) con cientos o miles de nodos enlazados por redes InfiniBand. Google tiene sus TPU pods (v5e y v6), Amazon tiene chips Trainium, y Microsoft tiene su acelerador personalizado Maia — pero NVIDIA todavía controla aproximadamente el 80% del mercado de entrenamiento de IA. Del lado del software, frameworks de entrenamiento distribuido como DeepSpeed, Megatron-LM y PyTorch FSDP manejan las estrategias de paralelismo (paralelismo de datos, paralelismo de tensores, paralelismo de pipeline) que permiten que un modelo demasiado grande para una GPU se distribuya a través de un cluster entero. La orquestación típicamente corre sobre Kubernetes con scheduling consciente de GPUs, o Slurm para cargas de trabajo batch estilo HPC tradicional. Todo el stack — del silicio al scheduler — tiene que funcionar en concierto, y un solo nodo lento o enlace de red inestable puede hundir el rendimiento de una corrida de entrenamiento de mil GPUs.

La inferencia es otra bestia

Si el entrenamiento es un proyecto de construcción, la inferencia es una cocina de restaurante — se trata de throughput, latencia y costo por solicitud a escala. La infraestructura de inferencia tiene sus propias herramientas especializadas: vLLM y TensorRT-LLM para servir modelos de lenguaje grandes con técnicas como batching continuo y PagedAttention; Triton Inference Server para servicio multi-modelo; y herramientas de cuantización que reducen modelos de precisión de 16 bits a 4 bits para que quepan en hardware más barato. La economía es contundente: servir un modelo a precisión completa en H100s podría costar $3 por millón de tokens, pero correr una versión cuantizada en GPUs de consumo o chips de inferencia personalizados podría bajar eso a menos de $0.20. Empresas como Groq (con sus chips LPU), Cerebras (motores a escala de wafer) y SambaNova (arquitectura de flujo de datos) todas apuestan a que el hardware de inferencia dedicado eventualmente será más barato que las GPUs para servir modelos.

La decisión de construir vs. comprar

Para la mayoría de las organizaciones, la infraestructura de IA no es algo que se construye — es algo que se renta. Los hyperscalers (AWS, Azure, Google Cloud) ofrecen instancias GPU bajo demanda, y proveedores especializados como CoreWeave, Lambda y DataCrunch ofrecen mejores precios de GPU con menos extras. Los clusters de GPU on-premise solo tienen sentido a escala masiva: Meta opera más de 600,000 H100s, y el centro de datos de xAI en Memphis corre 100,000 GPUs bajo un solo techo. Por debajo de esa escala, la sobrecarga operacional de gestionar hardware GPU — lidiar con throttling térmico, fallos de GPU (las H100 fallan a aproximadamente 1–3% por año), actualizaciones de drivers y gestión de energía — raramente justifica el gasto de capital. La verdadera habilidad de infraestructura para la mayoría de los equipos no es construir clusters; es elegir el proveedor correcto, optimizar tamaños de batch, y saber cuándo usar un modelo más pequeño que corre en una sola GPU en lugar de lanzar hardware al problema.

Hacia dónde va

El panorama de infraestructura está cambiando rápido. El silicio personalizado está proliferando — cada gran proveedor de nube ahora tiene o está construyendo sus propios chips de IA, persiguiendo los márgenes de NVIDIA. El hardware optimizado para inferencia se está separando del hardware de entrenamiento, porque los perfiles de carga de trabajo son muy diferentes. La inferencia en el edge está creciendo, con modelos corriendo en teléfonos (Neural Engine de Apple, Hexagon de Qualcomm) y laptops (NPU de Intel, XDNA de AMD) en lugar de en la nube. Y el auge de los agentes de IA — sistemas que hacen múltiples llamadas a modelos por tarea — está multiplicando la demanda de inferencia de maneras que están tensionando la capacidad actual. Las empresas que controlan la infraestructura de IA hoy controlan el ritmo del progreso en IA, que es exactamente por qué Microsoft, Google y Amazon están gastando cada uno más de $50 mil millones por año en centros de datos.

Infraestructura de IA