Zubnet AIApprendreWiki › FLOPs
Fondamentaux

FLOPs

Aussi appelé : Floating Point Operations, FLOP/s, calcul
Floating Point Operations — la mesure standard du travail de calcul en IA. Entraîner un modèle nécessite un certain nombre de FLOPs (opérations totales). Le matériel est évalué en FLOP/s (opérations par seconde). Un GPU H100 peut effectuer ~2 000 TFLOP/s (2 billiards d'opérations par seconde) en FP16. L'entraînement de GPT-4 est estimé à ~10^25 FLOPs — un nombre si grand qu'il est difficile à concevoir.

Pourquoi c'est important

Les FLOPs sont la monnaie du calcul en IA. Les lois d'échelle sont exprimées en FLOPs. Les budgets d'entraînement sont mesurés en FLOPs. Les comparaisons de GPU utilisent les FLOP/s. Comprendre les FLOPs t'aide à estimer les coûts d'entraînement, comparer le matériel et comprendre pourquoi le progrès en IA est si étroitement lié à la mise à l'échelle du calcul. Quand les gens disent "mettre à l'échelle le calcul", ils veulent dire dépenser plus de FLOPs.

En profondeur

Une approximation utile pour les FLOPs d'entraînement d'un Transformer : C ≈ 6 · N · D, où N est le nombre de paramètres et D les tokens traités. Le 6 vient de la passe forward (2x — un multiply-add compte comme 2 opérations) plus la passe backward (environ 2x la forward). Entraîner un modèle 7B sur 1T de tokens : 6 × 7×10^9 × 10^12 = 4.2×10^22 FLOPs. À 50% d'utilisation GPU sur des H100 (~1000 TFLOP/s effectifs), cela prend environ 500 GPU-heures.

FLOPs vs. FLOP/s vs. GPU-heures

FLOPs (sans /s) est le travail total. FLOP/s est le débit. Les GPU-heures, c'est temps × matériel. Ils sont liés : GPU-heures = FLOPs / (FLOP/s × utilisation). En pratique, l'utilisation GPU pour l'entraînement de LLM est de 30–60% (limitée par la communication, les opérations mémoire et les bulles de pipeline). Cela signifie que les 2000 TFLOP/s théoriques d'un H100 se traduisent par 600–1200 TFLOP/s de travail utile réel. Le coût suit : à 2$/GPU-heure, entraîner ce modèle 7B coûte environ 1 000$.

FLOPs d'inférence

FLOPs d'inférence par token ≈ 2N (une passe forward). Un modèle 70B : ~140 milliards de FLOPs par token. À 1000 TFLOP/s effectifs, c'est 0.14ms par token — théoriquement 7000 tokens/seconde. En pratique, l'inférence est généralement limitée par la bande passante mémoire (lire 140 Go de poids par token à 3 To/s prend 47ms), pas par le calcul. C'est le mur mémoire : le GPU peut calculer plus vite qu'il ne peut lire les poids du modèle.

Concepts connexes

← Tous les termes
← Flash Attention Flow Matching →