Zubnet AIAprenderWiki › Centros de dados
Infraestrutura

Centros de dados

Também conhecido como: Centros de dados de IA, clusters de GPU
Instalações físicas que abrigam os servidores, GPUs, equipamentos de rede e sistemas de refrigeração necessários para treinar e rodar modelos de IA. Data centers de IA modernos são construídos especificamente para computação paralela massiva, consumindo megawatts de energia e exigindo refrigeração especializada. Uma única rodada de treinamento de modelo de fronteira pode ocupar milhares de GPUs em uma instalação inteira por meses.

Por que isso importa

Data centers são as fábricas da era da IA. Toda consulta ao Claude, toda imagem do Midjourney, todo vídeo do Runway roda em hardware dentro de um desses prédios. A escassez global de capacidade de data centers prontos para IA é uma das maiores restrições ao crescimento da IA — e uma das maiores oportunidades de investimento.

Em profundidade

Um data center de IA não é apenas uma versão maior de um farm de servidores tradicional. A restrição fundamental mudou de densidade computacional para densidade de energia. Um rack empresarial padrão consome 7–10 quilowatts; um rack carregado com oito GPUs NVIDIA H100 consome 40–70 kW, e racks de próxima geração GB200 NVL72 passam de 120 kW. Isso significa que um data center de IA com a mesma área de um convencional pode precisar de 5–10 vezes a capacidade elétrica. Garantir tanta energia — frequentemente mais de 100 megawatts por instalação — se tornou o principal gargalo, e é por isso que empresas como Microsoft, Amazon e Google estão assinando acordos com usinas nucleares, explorando pequenos reatores modulares e reativando usinas descomissionadas só para alimentar seus clusters de GPU.

O Desafio da Refrigeração

Refrigeração a ar tradicional simplesmente não dá conta de workloads de IA modernos. Quando você empacota milhares de GPUs consumindo 700 watts cada em um espaço confinado, a geração de calor é assombrosa — um único servidor H100 produz aproximadamente a mesma carga térmica que um aquecedor doméstico rodando a toda potência. Isso empurrou a indústria em direção à refrigeração líquida em velocidade sem precedentes. Refrigeração líquida direta no chip, onde líquido refrigerante flui através de cold plates montadas diretamente na GPU, é agora padrão em novas instalações de IA. Alguns operadores vão além com refrigeração por imersão total, submergindo servidores inteiros em fluido dielétrico. Os sistemas GB200 da NVIDIA essencialmente exigem refrigeração líquida — não há configuração prática com refrigeração a ar. Essa mudança tem implicações massivas para data centers existentes: retrofit de uma instalação projetada para refrigeração a ar para suportar líquida frequentemente significa arrancar pisos elevados, adicionar infraestrutura hidráulica e atualizar a capacidade estrutural do prédio para suportar o peso de sistemas cheios de refrigerante.

Rede Dentro do Prédio

A malha de rede dentro de um data center de IA é onde a verdadeira complexidade de engenharia reside. Quando 10.000 GPUs precisam sincronizar atualizações de gradiente durante uma rodada de treinamento, a interconexão precisa entregar largura de banda massiva com latência mínima e perda de pacotes próxima de zero. InfiniBand, originalmente desenvolvido para computação de alto desempenho, domina clusters de treinamento de IA porque oferece 400 Gb/s por porta (com 800 Gb/s NDR chegando em produção) e recursos como RDMA que bypassa a CPU inteiramente para transferências de dados. Ethernet está alcançando — o Ultra Ethernet Consortium e o Spectrum-X da NVIDIA estão empurrando 800 GbE com RoCE (RDMA over Converged Ethernet) — mas InfiniBand continua sendo o padrão para workloads sérios de treinamento. A topologia de rede também importa: designs fat-tree e rail-optimized garantem que qualquer GPU consiga se comunicar com qualquer outra GPU em largura de banda total, o que é crítico quando sua estratégia de paralelismo divide um modelo entre centenas de nós.

Geografia e Estratégia

Onde você constrói um data center de IA é uma decisão estratégica orientada por disponibilidade de energia, clima, conectividade de fibra e, cada vez mais, geopolítica. O norte da Virgínia (corredor de Ashburn) abriga a maior concentração de data centers do planeta, mas restrições de energia estão empurrando novas construções para lugares como o centro do Texas, os países nórdicos e o Oriente Médio. Climas frios reduzem custos de refrigeração — o data center da Meta em Luleå, Suécia, usa ar externo para refrigeração na maior parte do ano. Energia hidrétrica barata atrai instalações para Québec e o Noroeste do Pacífico. Enquanto isso, iniciativas de IA soberana estão levando países como Arábia Saudita, Emirados Árabes e Índia a construir clusters de GPU domésticos para não dependerem dos hyperscalers americanos para capacidade de IA. O resultado é uma construção global estimada em mais de US$ 300 bilhões até 2027, tornando data centers de IA um dos maiores investimentos em infraestrutura da história.

Conceitos relacionados

← Todos os termos
← Corpus Decart AI →
ESC