GPU : Définition et signification — Wiki IA

Conçus à l'origine pour le rendu graphique, les GPU se sont avérés parfaits pour l'IA parce qu'ils peuvent effectuer des milliers d'opérations mathématiques simultanément. L'entraînement et l'exécution de modèles d'IA consistent essentiellement en une multiplication matricielle massive — exactement ce pour quoi les GPU sont conçus. NVIDIA domine ce marché.

Pourquoi c’est important

Les GPU sont le goulot d'étranglement physique de toute l'industrie de l'IA. Pourquoi les modèles coûtent ce qu'ils coûtent, pourquoi certains fournisseurs sont plus rapides que d'autres, pourquoi il y a une pénurie mondiale de puces — tout revient à l'offre de GPU et à la VRAM.

En profondeur

La raison pour laquelle les GPU dominent l'IA n'est pas la vitesse brute sur un calcul individuel — un CPU gère en fait les opérations individuelles plus rapidement. L'avantage est le parallélisme. Un CPU moderne a 8 à 64 cœurs ; un NVIDIA H100 a 16 896 cœurs CUDA. Les réseaux de neurones reposent sur des multiplications matricielles, où l'on effectue la même opération sur des milliers de points de données indépendants simultanément. C'est exactement la charge de travail pour laquelle les GPU ont été conçus à l'époque où leur tâche était de calculer la couleur de millions de pixels à chaque image. La communauté de l'IA a simplement remarqué que la même architecture matérielle était parfaite pour entraîner des réseaux de neurones, et l'ère moderne du calcul sur GPU est née.

Le fossé CUDA

La domination de NVIDIA dans les GPU pour l'IA ne repose pas uniquement sur le matériel — c'est aussi CUDA, l'écosystème logiciel qu'ils construisent depuis 2006. CUDA est le framework de programmation qui permet aux développeurs d'écrire du code pour les GPU NVIDIA, et pratiquement tous les grands frameworks d'IA (PyTorch, TensorFlow, JAX) sont bâtis dessus. AMD fabrique du matériel compétitif avec son MI300X (192 Go de mémoire HBM3), et propose ROCm comme alternative à CUDA, mais l'écart d'écosystème est énorme. La plupart des chercheurs et ingénieurs en IA ont passé des années à écrire du code CUDA et ne sont pas pressés de le porter. Les TPU (Tensor Processing Units) de Google sont l'autre acteur majeur, mais ils ne sont disponibles que via Google Cloud — on ne peut pas en acheter.

Les niveaux de matériel

Le paysage des GPU présente des niveaux distincts. Côté centre de données, le H100 de NVIDIA (80 Go de HBM3) est le cheval de bataille de l'entraînement en IA depuis 2023, avec le H200 (141 Go de HBM3e) offrant plus de mémoire pour les modèles plus grands. Les B200 et GB200 représentent la prochaine génération. Pour l'inférence spécifiquement, le L40S (48 Go de GDDR6X) offre une alternative moins coûteuse quand on n'a pas besoin du débit brut d'entraînement. Côté grand public, la RTX 4090 avec 24 Go de GDDR6X est la reine de l'IA locale — assez de VRAM pour exécuter confortablement des modèles quantifiés de 14 milliards de paramètres, bien qu'entraîner quoi que ce soit de sérieux dessus soit irréaliste. L'écart entre le grand public et le centre de données ne se limite pas à la VRAM — c'est la bande passante mémoire. Un H100 fournit plus de 3 To/s de bande passante mémoire contre 1 To/s pour la 4090, et pour l'inférence de grands modèles de langage, la bande passante mémoire est souvent le véritable goulot d'étranglement.

Monter au-delà d'une seule carte

Un point que les praticiens apprennent vite : « avoir un GPU » et « avoir assez de GPU » sont des situations très différentes. Exécuter l'inférence sur un seul modèle est une chose, mais entraîner un LLM moderne nécessite plusieurs GPU travaillant ensemble, connectés par des interconnexions haute vitesse comme NVLink ou InfiniBand. Un nœud à 8 GPU H100 (DGX H100) coûte environ 300 000 $ et peut entraîner un modèle de 70 milliards de paramètres — mais les modèles de pointe comme GPT-4 ou Claude ont probablement nécessité des milliers de GPU pendant des mois. C'est pourquoi la location de GPU dans le nuage (chez des fournisseurs comme Lambda, DataCrunch, CoreWeave ou les hyperscalers) est devenue l'approche standard : vous louez un cluster pour votre session d'entraînement et le rendez quand c'est terminé, plutôt que d'acheter du matériel qui sera dépassé dans deux ans.

GPU

Pourquoi c’est important

En profondeur

Le fossé CUDA

Les niveaux de matériel

Monter au-delà d'une seule carte

Concepts connexes