GPU: Definição e significado — Wiki de IA

Originalmente projetadas para renderizar gráficos, as GPUs se mostraram perfeitas para IA porque conseguem fazer milhares de operações matemáticas simultaneamente. Treinar e rodar modelos de IA é essencialmente multiplicação massiva de matrizes — exatamente o que GPUs fazem de melhor. A NVIDIA domina esse mercado.

Por que isso importa

GPUs são o gargalo físico de toda a indústria de IA. Por que modelos custam o que custam, por que alguns provedores são mais rápidos que outros, por que existe uma escassez global de chips — tudo volta para a oferta de GPUs e VRAM.

Em profundidade

O motivo pelo qual GPUs dominam a IA não é velocidade bruta em um cálculo individual — uma CPU na verdade lida com operações individuais mais rápido. A vantagem é o paralelismo. Uma CPU moderna tem de 8 a 64 núcleos; uma NVIDIA H100 tem 16.896 CUDA cores. Redes neurais são construídas sobre multiplicações de matrizes, onde você está fazendo a mesma operação em milhares de pontos de dados independentes simultaneamente. Esse é exatamente o tipo de carga para o qual as GPUs foram projetadas lá atrás, quando o trabalho delas era calcular a cor de milhões de pixels a cada frame. A comunidade de IA simplesmente percebeu que a mesma arquitetura de hardware era perfeita para treinar redes neurais, e a era moderna de GPU compute nasceu.

O Fosso do CUDA

A dominância da NVIDIA em GPUs para IA não se resume ao hardware — é sobre o CUDA, o ecossistema de software que eles vêm construindo desde 2006. CUDA é o framework de programação que permite desenvolvedores escreverem código para GPUs NVIDIA, e praticamente todo framework major de IA (PyTorch, TensorFlow, JAX) é construído em cima dele. A AMD faz hardware competitivo com seu MI300X (192GB de memória HBM3) e tem o ROCm como alternativa ao CUDA, mas a diferença no ecossistema é enorme. A maioria dos pesquisadores e engenheiros de IA passou anos escrevendo código CUDA e não está ansiosa para portá-lo. As TPUs (Tensor Processing Units) do Google são o outro player importante, mas só estão disponíveis via Google Cloud — você não pode comprar uma.

As Camadas de Hardware

O panorama de GPUs tem camadas claras. No lado de datacenter, a H100 da NVIDIA (80GB HBM3) tem sido o carro-chefe do treinamento de IA desde 2023, com a H200 (141GB HBM3e) oferecendo mais memória para modelos maiores. A B200 e GB200 representam a próxima geração. Para inferência especificamente, a L40S (48GB GDDR6X) oferece uma alternativa mais barata quando você não precisa do throughput bruto de treinamento. No lado do consumidor, a RTX 4090 com 24GB de GDDR6X é a rainha da IA local — VRAM suficiente para rodar modelos quantizados de 14B parâmetros confortavelmente, embora treinar algo sério nela seja impraticável. A diferença entre consumidor e datacenter não é só VRAM — é largura de banda de memória. Uma H100 entrega mais de 3 TB/s de largura de banda de memória contra 1 TB/s da 4090, e para inferência de LLMs, largura de banda de memória é frequentemente o gargalo real.

Escalando Além de Uma Placa

Uma coisa que profissionais aprendem rápido é que "ter uma GPU" e "ter GPU suficiente" são situações muito diferentes. Rodar inferência em um único modelo é uma coisa, mas treinar um LLM moderno requer múltiplas GPUs trabalhando juntas, conectadas por interconexões de alta velocidade como NVLink ou InfiniBand. Um nó de 8 GPUs H100 (DGX H100) custa cerca de US$ 300.000 e consegue treinar um modelo de 70B — mas modelos de fronteira como GPT-4 ou Claude provavelmente precisaram de milhares de GPUs por meses. É por isso que o aluguel de GPUs na nuvem (de provedores como Lambda, DataCrunch, CoreWeave ou as hyperscalers) se tornou a abordagem padrão: você aluga um cluster para sua rodada de treinamento e devolve quando terminar, em vez de comprar hardware que vai ficar obsoleto em dois anos.

GPU

Por que isso importa

Em profundidade

O Fosso do CUDA

As Camadas de Hardware

Escalando Além de Uma Placa

Conceitos relacionados