Infraestrutura de IA não se parece em nada com computação em nuvem tradicional, mesmo rodando dentro dos mesmos data centers. Uma aplicação web convencional é limitada por CPU e leve em memória — alguns cores, alguns gigabytes de RAM, talvez um banco de dados modesto. Workloads de IA invertem esse perfil inteiramente. Treinar um modelo de fronteira como GPT-4 ou Claude requer milhares de GPUs rodando em paralelo por semanas, conectadas por interconexões ultrarrápidas (InfiniBand ou NVLink) para que possam sincronizar gradientes sem gargalos. A rede sozinha pode custar mais que os servidores numa configuração tradicional. É por isso que empresas como a NVIDIA, com seus sistemas DGX SuperPOD, e provedores de nuvem como CoreWeave e Lambda Labs construíram negócios inteiros em torno de infraestrutura GPU-first que pareceria absurda em qualquer outro contexto.
A infraestrutura de treinamento é dominada por poucas configurações de hardware. As GPUs H100 e H200 da NVIDIA são os cavalos de batalha, tipicamente implantadas em clusters de 8 por nó (conectadas via NVLink) com centenas ou milhares de nós ligados por rede InfiniBand. O Google tem seus TPU pods (v5e e v6), a Amazon tem chips Trainium e a Microsoft tem seu acelerador customizado Maia — mas a NVIDIA ainda domina cerca de 80% do mercado de treinamento de IA. No lado do software, frameworks de treinamento distribuído como DeepSpeed, Megatron-LM e PyTorch FSDP lidam com as estratégias de paralelismo (paralelo de dados, paralelo de tensores, paralelo de pipeline) que permitem que um modelo grande demais para uma GPU se espalhe por um cluster inteiro. A orquestração tipicamente roda em Kubernetes com scheduling GPU-aware, ou Slurm para workloads batch no estilo HPC tradicional. A stack inteira — do silício ao scheduler — precisa funcionar em concerto, e um único nó lento ou link de rede instável pode prejudicar o desempenho de uma rodada de treinamento com mil GPUs.
Se treinamento é um projeto de construção, inferência é uma cozinha de restaurante — tudo gira em torno de throughput, latência e custo por requisição em escala. Infraestrutura de inferência tem suas próprias ferramentas especializadas: vLLM e TensorRT-LLM para servir large language models com técnicas como continuous batching e PagedAttention; Triton Inference Server para serving multi-modelo; e ferramentas de quantização que encolhem modelos de precisão de 16 bits para 4 bits para que caibam em hardware mais barato. A economia é clara: servir um modelo em precisão total em H100s pode custar US$ 3 por milhão de tokens, mas rodar uma versão quantizada em GPUs de consumo ou chips de inferência customizados pode trazer isso para menos de US$ 0,20. Empresas como Groq (com seus chips LPU), Cerebras (motores wafer-scale) e SambaNova (arquitetura dataflow) estão todas apostando que hardware de inferência dedicado eventualmente vai custar menos que GPUs para serving.
Para a maioria das organizações, infraestrutura de IA não é algo que você constrói — é algo que você aluga. Os hyperscalers (AWS, Azure, Google Cloud) oferecem instâncias GPU sob demanda, e provedores especializados como CoreWeave, Lambda e DataCrunch oferecem melhor preço de GPU com menos extras. Clusters de GPU on-premise só fazem sentido em escala massiva: a Meta opera mais de 600.000 H100s, e o data center de Memphis da xAI roda 100.000 GPUs sob um único teto. Abaixo dessa escala, o overhead operacional de gerenciar hardware de GPU — lidar com throttling térmico, falhas de GPU (H100s falham a uma taxa de cerca de 1–3% por ano), atualizações de driver e gerenciamento de energia — raramente justifica o investimento de capital. A verdadeira habilidade de infraestrutura para a maioria das equipes não é construir clusters; é escolher o provedor certo, otimizar batch sizes e saber quando usar um modelo menor que roda em uma única GPU em vez de jogar hardware no problema.
O cenário de infraestrutura está mudando rápido. Silício customizado está proliferando — todo grande provedor de nuvem agora tem ou está construindo seus próprios chips de IA, perseguindo as margens da NVIDIA. Hardware otimizado para inferência está se separando do hardware de treinamento, porque os perfis de workload são muito diferentes. Inferência na borda está crescendo, com modelos rodando em celulares (Neural Engine da Apple, Hexagon da Qualcomm) e laptops (NPU da Intel, XDNA da AMD) em vez de na nuvem. E a ascensão de agentes de IA — sistemas que fazem múltiplas chamadas de modelo por tarefa — está multiplicando a demanda de inferência de formas que estão pressionando a capacidade atual. As empresas que controlam a infraestrutura de IA hoje controlam o ritmo do progresso da IA, e é exatamente por isso que Microsoft, Google e Amazon estão cada uma gastando mais de US$ 50 bilhões por ano em data centers.