Zubnet AIApprendreWiki › Infrastructure IA
Infrastructure

Infrastructure IA

Aussi appelé : Infra IA, infrastructure ML
La pile complète de matériel, de logiciels et de services nécessaires pour entraîner et déployer des modèles d'IA à grande échelle. Cela inclut les GPU et les puces sur mesure, les centres de données, le réseau, le stockage, les plateformes d'orchestration (Kubernetes, Slurm), les cadres de service de modèles (vLLM, TensorRT) et les fournisseurs infonuagiques qui empaquettent le tout. L'infrastructure IA est le lieu où le monde abstrait de l'architecture de modèles rencontre le monde très concret des réseaux électriques et des systèmes de refroidissement.

Pourquoi c’est important

L'infrastructure détermine ce qui est possible. La raison pour laquelle seule une poignée d'entreprises peut entraîner des modèles de pointe n'est pas un manque d'idées — c'est un manque d'infrastructure. Et la raison pour laquelle l'IA coûte ce qu'elle coûte pour les utilisateurs finaux remonte directement à la disponibilité des GPU, à la capacité des centres de données et à l'efficacité du service d'inférence.

En profondeur

L'infrastructure IA ne ressemble en rien à l'informatique en nuage traditionnelle, même si elle fonctionne dans les mêmes centres de données. Une application web conventionnelle est limitée par le processeur et légère en mémoire — quelques cœurs, quelques gigaoctets de RAM, peut-être une base de données modeste. Les charges de travail IA inversent complètement ce profil. Entraîner un modèle de pointe comme GPT-4 ou Claude nécessite des milliers de GPU fonctionnant en parallèle pendant des semaines, connectés par des interconnexions ultra-rapides (InfiniBand ou NVLink) pour pouvoir synchroniser les gradients sans goulot d'étranglement. Le réseau seul peut coûter plus cher que les serveurs dans une configuration traditionnelle. C'est pourquoi des entreprises comme NVIDIA, avec leurs systèmes DGX SuperPOD, et des fournisseurs de nuage comme CoreWeave et Lambda Labs ont bâti des entreprises entières autour d'infrastructures GPU d'abord qui paraîtraient absurdes dans tout autre contexte.

La pile d'entraînement

L'infrastructure d'entraînement est dominée par une poignée de configurations matérielles. Les GPU H100 et H200 de NVIDIA sont les bêtes de somme, typiquement déployés en grappes de 8 par nœud (connectés via NVLink) avec des centaines ou des milliers de nœuds reliés par un réseau InfiniBand. Google a ses pods TPU (v5e et v6), Amazon a les puces Trainium, et Microsoft a son accélérateur personnalisé Maia — mais NVIDIA commande encore environ 80 % du marché de l'entraînement IA. Du côté logiciel, des cadres d'entraînement distribué comme DeepSpeed, Megatron-LM et PyTorch FSDP gèrent les stratégies de parallélisme (données parallèles, tenseur parallèle, pipeline parallèle) qui permettent à un modèle trop grand pour un seul GPU de s'étendre sur un cluster entier. L'orchestration tourne typiquement sur Kubernetes avec un ordonnancement compatible GPU, ou Slurm pour les charges de travail par lots de style HPC traditionnel. La pile entière — du silicium à l'ordonnanceur — doit fonctionner de concert, et un seul nœud lent ou un lien réseau instable peut ruiner la performance d'un entraînement sur mille GPU.

L'inférence est une tout autre affaire

Si l'entraînement est un chantier de construction, l'inférence est une cuisine de restaurant — il s'agit de débit, de latence et de coût par requête à grande échelle. L'infrastructure d'inférence a ses propres outils spécialisés : vLLM et TensorRT-LLM pour servir les grands modèles de langage avec des techniques comme le traitement par lots continu et PagedAttention ; Triton Inference Server pour le service multi-modèle ; et des outils de quantification qui réduisent les modèles de 16 bits à 4 bits de précision pour qu'ils tiennent sur du matériel moins coûteux. L'économie est brutale : servir un modèle en pleine précision sur des H100 pourrait coûter 3 $ par million de tokens, mais exécuter une version quantifiée sur des GPU grand public ou des puces d'inférence sur mesure pourrait ramener ce coût sous 0,20 $. Des entreprises comme Groq (avec leurs puces LPU), Cerebras (moteurs à l'échelle du wafer) et SambaNova (architecture de flux de données) parient toutes que du matériel d'inférence dédié finira par sous-coter les GPU pour le service.

La décision construire-ou-acheter

Pour la plupart des organisations, l'infrastructure IA n'est pas quelque chose qu'on construit — c'est quelque chose qu'on loue. Les hyperscalers (AWS, Azure, Google Cloud) offrent des instances GPU à la demande, et des fournisseurs spécialisés comme CoreWeave, Lambda et DataCrunch offrent de meilleurs prix GPU avec moins d'extras. Les clusters GPU sur site ne font sens qu'à échelle massive : Meta exploite plus de 600 000 H100, et le centre de données de Memphis de xAI fait tourner 100 000 GPU sous un seul toit. En dessous de cette échelle, la charge opérationnelle de la gestion du matériel GPU — gérer les ralentissements thermiques, les pannes de GPU (les H100 tombent en panne à un rythme d'environ 1 à 3 % par an), les mises à jour de pilotes et la gestion de l'alimentation — justifie rarement la dépense en capital. La véritable compétence en infrastructure pour la plupart des équipes n'est pas de construire des clusters ; c'est de choisir le bon fournisseur, d'optimiser les tailles de lots et de savoir quand utiliser un modèle plus petit qui tourne sur un seul GPU au lieu de jeter du matériel sur le problème.

Où ça s'en va

Le paysage de l'infrastructure évolue rapidement. Le silicium sur mesure prolifère — chaque grand fournisseur de nuage a maintenant ou développe ses propres puces IA, chassant les marges de NVIDIA. Le matériel optimisé pour l'inférence se sépare du matériel d'entraînement, parce que les profils de charge sont très différents. L'inférence en périphérie se développe, avec des modèles tournant sur les téléphones (Neural Engine d'Apple, Hexagon de Qualcomm) et les portables (NPU d'Intel, XDNA d'AMD) plutôt que dans le nuage. Et l'essor des agents IA — des systèmes qui font plusieurs appels au modèle par tâche — multiplie la demande d'inférence de manières qui mettent à rude épreuve la capacité actuelle. Les entreprises qui contrôlent l'infrastructure IA aujourd'hui contrôlent le rythme du progrès en IA, ce qui explique exactement pourquoi Microsoft, Google et Amazon dépensent chacun plus de 50 milliards de dollars par an en centres de données.

Concepts connexes

← Tous les termes
← Gouvernance de l'IA Tarification de l'IA →
ESC