Zubnet AIApprendreWiki › Centres de données
Infrastructure

Centres de données

Aussi appelé : Centres de données IA, grappes de GPU
Les installations physiques qui abritent les serveurs, les GPU, les équipements réseau et les systèmes de refroidissement nécessaires pour entraîner et faire tourner les modèles d'IA. Les centres de données modernes pour l'IA sont construits sur mesure pour le calcul parallèle massif, consommant des mégawatts d'électricité et nécessitant un refroidissement spécialisé. Un seul entraînement de modèle de pointe peut occuper des milliers de GPU dans une installation entière pendant des mois.

Pourquoi c’est important

Les centres de données sont les usines de l'ère de l'IA. Chaque requête à Claude, chaque image de Midjourney, chaque vidéo de Runway tourne sur du matériel installé dans un de ces bâtiments. La pénurie mondiale de capacité de centres de données prêts pour l'IA est l'une des plus grandes contraintes sur la croissance de l'IA — et l'une des plus grandes opportunités d'investissement.

En profondeur

Un centre de données IA n'est pas simplement une version plus grande d'une ferme de serveurs traditionnelle. La contrainte fondamentale est passée de la densité de calcul à la densité de puissance. Un rack d'entreprise standard consomme 7 à 10 kilowatts ; un rack chargé de huit GPU NVIDIA H100 tire 40 à 70 kW, et les racks de prochaine génération GB200 NVL72 dépassent 120 kW. Cela signifie qu'un centre de données IA avec la même surface au sol qu'une installation conventionnelle pourrait nécessiter 5 à 10 fois la capacité électrique. Sécuriser autant de puissance — souvent plus de 100 mégawatts par installation — est devenu le principal goulot d'étranglement, ce qui explique pourquoi des entreprises comme Microsoft, Amazon et Google signent des ententes avec des centrales nucléaires, explorent les petits réacteurs modulaires et remettent en service des centrales déclassées uniquement pour alimenter leurs clusters GPU.

Le défi du refroidissement

Le refroidissement par air traditionnel ne peut tout simplement pas gérer les charges de travail IA modernes. Quand on empile des milliers de GPU tirant 700 watts chacun dans un espace confiné, la production de chaleur est stupéfiante — un seul serveur H100 produit à peu près la même charge thermique qu'un radiateur d'appoint fonctionnant à plein régime. Cela a poussé l'industrie vers le refroidissement liquide à une vitesse sans précédent. Le refroidissement liquide direct à la puce, où le liquide de refroidissement circule à travers des plaques froides montées directement sur le GPU, est désormais la norme dans les nouvelles installations IA. Certains opérateurs vont plus loin avec le refroidissement par immersion complète, submergeant des serveurs entiers dans un fluide diélectrique. Les systèmes GB200 de NVIDIA nécessitent essentiellement le refroidissement liquide — il n'y a pas de configuration refroidie par air pratique. Ce virage a des implications massives pour les centres de données existants : la rénovation d'une installation conçue pour le refroidissement par air pour supporter le refroidissement liquide signifie souvent arracher les planchers surélevés, ajouter une infrastructure de plomberie et améliorer la capacité structurelle du bâtiment pour supporter le poids des systèmes remplis de liquide de refroidissement.

Le réseau à l'intérieur du bâtiment

Le tissu réseau à l'intérieur d'un centre de données IA est là où la véritable complexité d'ingénierie réside. Quand 10 000 GPU doivent synchroniser des mises à jour de gradient pendant un entraînement, l'interconnexion doit livrer une bande passante massive avec une latence minimale et une perte de paquets quasi nulle. InfiniBand, développé à l'origine pour le calcul haute performance, domine les clusters d'entraînement IA parce qu'il offre 400 Gb/s par port (avec le NDR à 800 Gb/s arrivant en production) et des fonctionnalités comme le RDMA qui contourne entièrement le processeur pour les transferts de données. Ethernet rattrape son retard — le Ultra Ethernet Consortium et Spectrum-X de NVIDIA poussent le 800 GbE avec RoCE (RDMA over Converged Ethernet) — mais InfiniBand reste la référence pour les charges d'entraînement sérieuses. La topologie réseau compte aussi : les designs en fat-tree et optimisés par rail garantissent que n'importe quel GPU peut communiquer avec n'importe quel autre GPU à pleine bande passante, ce qui est essentiel quand votre stratégie de parallélisme répartit un modèle sur des centaines de nœuds.

Géographie et stratégie

L'emplacement d'un centre de données IA est une décision stratégique dictée par la disponibilité de l'énergie, le climat, la connectivité fibre et, de plus en plus, la géopolitique. Le Nord de la Virginie (corridor d'Ashburn) abrite la plus dense concentration de centres de données sur Terre, mais les contraintes d'énergie poussent les nouvelles constructions vers des endroits comme le centre du Texas, les pays nordiques et le Moyen-Orient. Les climats froids réduisent les coûts de refroidissement — le centre de données de Meta à Luleå, en Suède, utilise l'air extérieur pour le refroidissement la majeure partie de l'année. L'hydroélectricité bon marché attire les installations au Québec et dans le Nord-Ouest pacifique. Pendant ce temps, les initiatives d'IA souveraine poussent des pays comme l'Arabie saoudite, les Émirats arabes unis et l'Inde à construire des clusters GPU domestiques pour ne pas dépendre des hyperscalers américains pour la capacité IA. Le résultat est un déploiement mondial estimé à plus de 300 milliards de dollars d'ici 2027, faisant des centres de données IA l'un des plus grands investissements en infrastructure de l'histoire.

Concepts connexes

← Tous les termes
← Corpus Decart AI →
ESC