GPU: Definición y significado — Wiki de IA

Originalmente diseñadas para renderizar gráficos, las GPUs resultaron ser perfectas para la IA porque pueden realizar miles de operaciones matemáticas simultáneamente. Entrenar y ejecutar modelos de IA es esencialmente multiplicación masiva de matrices — exactamente para lo que las GPUs están hechas. NVIDIA domina este mercado.

Por qué importa

Las GPUs son el cuello de botella físico de toda la industria de IA. Por qué los modelos cuestan lo que cuestan, por qué algunos proveedores son más rápidos que otros, por qué hay escasez global de chips — todo se reduce a la oferta de GPUs y la VRAM.

En profundidad

La razón por la que las GPUs dominan la IA no es la velocidad bruta en un solo cálculo — de hecho, una CPU maneja operaciones individuales más rápido. La ventaja es el paralelismo. Una CPU moderna tiene entre 8 y 64 núcleos; una NVIDIA H100 tiene 16,896 núcleos CUDA. Las redes neuronales están construidas sobre multiplicaciones de matrices, donde haces la misma operación en miles de puntos de datos independientes simultáneamente. Ese es exactamente el tipo de carga de trabajo para el que se diseñaron las GPUs cuando su trabajo era calcular el color de millones de píxeles en cada fotograma. La comunidad de IA simplemente notó que la misma arquitectura de hardware era perfecta para entrenar redes neuronales, y nació la era moderna del cómputo en GPU.

El foso de CUDA

La dominancia de NVIDIA en GPUs para IA no se trata solo de hardware — se trata de CUDA, el ecosistema de software que han estado construyendo desde 2006. CUDA es el framework de programación que permite a los desarrolladores escribir código para GPUs de NVIDIA, y prácticamente todo framework importante de IA (PyTorch, TensorFlow, JAX) está construido sobre él. AMD fabrica hardware competitivo con su MI300X (192GB de memoria HBM3) y tienen ROCm como alternativa a CUDA, pero la brecha del ecosistema es enorme. La mayoría de los investigadores e ingenieros de IA han pasado años escribiendo código CUDA y no están precisamente ansiosos por portarlo. Las TPUs (Tensor Processing Units) de Google son el otro actor importante, pero solo están disponibles a través de Google Cloud — no puedes comprar una.

Los niveles de hardware

El panorama de GPUs tiene niveles claros. En el lado de centros de datos, la H100 de NVIDIA (80GB HBM3) ha sido el caballo de batalla del entrenamiento de IA desde 2023, con la H200 (141GB HBM3e) ofreciendo más memoria para modelos más grandes. La B200 y GB200 representan la siguiente generación. Para inferencia específicamente, la L40S (48GB GDDR6X) ofrece una alternativa más económica cuando no necesitas el throughput bruto de entrenamiento. En el lado de consumo, la RTX 4090 con 24GB de GDDR6X es la reina de la IA local — suficiente VRAM para correr modelos cuantizados de 14B parámetros cómodamente, aunque entrenar algo serio en ella es poco práctico. La brecha entre consumo y datacenter no es solo VRAM — es ancho de banda de memoria. Una H100 empuja más de 3 TB/s de ancho de banda de memoria versus 1 TB/s de la 4090, y para inferencia de modelos de lenguaje grandes, el ancho de banda de memoria suele ser el cuello de botella real.

Escalando más allá de una tarjeta

Algo que los profesionales aprenden rápido es que “tener una GPU” y “tener suficiente GPU” son situaciones muy diferentes. Correr inferencia en un solo modelo es una cosa, pero entrenar un LLM moderno requiere múltiples GPUs trabajando juntas, conectadas por interconexiones de alta velocidad como NVLink o InfiniBand. Un nodo de 8 GPUs H100 (DGX H100) cuesta alrededor de $300,000 y puede entrenar un modelo de 70B — pero los modelos de frontera como GPT-4 o Claude probablemente requirieron miles de GPUs durante meses. Por eso el alquiler de GPUs en la nube (de proveedores como Lambda, DataCrunch, CoreWeave o los hyperscalers) se ha convertido en el enfoque estándar: rentas un clúster para tu corrida de entrenamiento y lo devuelves cuando terminas, en lugar de comprar hardware que estará obsoleto en dos años.

GPU

Por qué importa

En profundidad

El foso de CUDA

Los niveles de hardware

Escalando más allá de una tarjeta

Conceptos relacionados